ストリーミング End-to-End 音声認識のための RNN Transducer の最小遅延学習 - Yahoo! JAPANの研究開発

Publications

カンファレンス (国内) ストリーミング End-to-End 音声認識のための RNN Transducer の最小遅延学習

篠原雄介, 渡部晋治 (Carnegie Mellon University)

日本音響学会2023年春季研究発表会

2023.3.15

End-to-End 音声認識が HMM ハイブリッド音声認識に代わって台頭しており，とくにストリーミング音声認識との相性の良さから Recurrent Neural Network Transducer (RNN-T) が事実上の標準方式になりつつある．ストリーミング音声認識では認識精度が高いことに加えて遅延が小さいことが求められるが，RNN-T では遅延が大きくなる課題があった．RNN-T の遅延を削減する学習法としてアラインメント制約学習や FastEmit が知られているが，アラインメントの制約や勾配の水増しにより遅延を間接的に削減するため，精度を維持しながら遅延を効果的に削減することが難しかった．本稿では学習時の損失関数に「期待遅延」を組み込むことで遅延を直接的に評価・削減する「最小遅延学習」を提案する．また期待遅延の勾配を効率的に計算するアルゴリズムも併せて提案する．

音声処理