画像を利用したニュース記事のマルチモーダル要約システム - Yahoo! JAPAN R&D

Publications

WORKSHOP (DOMESTIC) 画像を利用したニュース記事のマルチモーダル要約システム

中井亮(東京大学), 小林隼人, 田頭幸浩, 野口正樹, 村尾一真, 中山英樹(東京大学)

第23回画像センシングシンポジウム (SSII2017)

June 07, 2017

近年，機械翻訳タスクにおいて提案された Encoder-Decoder モデルやアテンション機構が，要約タスクにも応用されてきた．これらの手法は文書のみを入力として利用しているが，ニュース記事のように，文書に画像が付属している場合，画像を利用することでより精度の高い要約を行うことができると考えられる．本研究では，画像情報と文書情報に基づき，画像 Encoder と文書 Encoder の 2 つの Encoder から構成され，各々がアテンション機構を持ったマルチモーダルな要約システムを提案するとともに，モデルの学習に際し，難易度の低いタスクから高いタスクへ段階的に進めるカリキュラム学習法を提案する．また，提案手法を Yahoo!ニューストピックスから得られたデータセットに適用し，提案手法の有効性を示す．

Paper : 画像を利用したニュース記事のマルチモーダル要約システム (external link)