単語の表記と素性を同時出力するend-to-end音声認識 - Yahoo! JAPAN R&D

Publications

CONFERENCE (DOMESTIC) 単語の表記と素性を同時出力するend-to-end音声認識

大町基, 藤田悠哉, 渡部晋治 (Johns Hopkins University), Xuankai Chang (Johns Hopkins University)

日本音響学会2020年秋季研究発表会 (音響学会)

September 11, 2020

音声認識の分野では、音声から発話文を単一のニューラルネットで推定するend-to-end音声認識 (E2E ASR)の研究が盛んに行われている。既存のE2E ASRは、発話内容の表記列を出力するものが多い。しかし、実用面を考えると発話内容に含まれる単語の読みや品詞などの素性情報もまた重要な情報となる。本研究では、発話内容に含まれる個々の単語の表記と素性を並べた単一の系列を同時に出力するE2E ASRを提案する。提案法は、言語情報に加えて音声情報を用いて単語の素性を推定することができるという特長がある。音声認識実験の結果、提案法が発話文の表記と素性の系列を正確に推定できることを確認した。さらに、言語情報のみに基づく方法よりも高い精度で単語分割、読み・品詞推定が可能であることも確認した。

Speech Processing