Publications

カンファレンス (国内) 挿入操作に基づく End-to-End 音声認識

藤田 悠哉, 渡部 晋治 (Johns Hopkins Univ.), 大町 基, Xuankai Chang (Johns Hopkins Univ.)

日本音響学会2020年秋季研究発表会 (音響学会)

2020.9.9

機械翻訳の分野で提案されている 3 つの挿入操作に基づくE2E モデルを音声認識に応用する。 また, connectionist temporal classification (CTC) と挿入操作に基づくモデルの結合学習について新しい 定式化を提案する。提案する定式化では, CTC による字句生成の確率と挿入操作に基づく字句生成の同時確率をモデル化する。従って, 挿入操作に基づくモデルによって, 非自己回帰な性質を保ったまま CTC が強化される。デコード条件を同一にすると, 従来の自己回帰 Transformer に迫る性能を少ない反復回数で達成した。