言語情報と画像情報を用いたPOIの業種予測のためのマルチモーダル深層モデル - Yahoo! JAPANの研究開発

Publications

カンファレンス (国内) 言語情報と画像情報を用いたPOIの業種予測のためのマルチモーダル深層モデル

澤田一正 (北海道大学), 沖本祐典, 金森研太, 野田五十樹 (北海道大学), 小山聡 (北海道大学), 宰川潤二

2023年度人工知能学会全国大会（第37回） (JSAI2023)

2023.6.7

施設や店舗などといったPOI(Point of Interest)を扱うサービスにおいて，POIの業種情報を保有し，その業種情報が正確であることは重要である．正確な業種情報を多くのPOIで得るためには，機械学習を用いて名称や口コミなどのPOIの情報から予測することが有用である．近年，マルチモーダルな深層モデルが多くのタスクで高い性能を示すことが報告されており，POIの業種予測においても有用であることが期待される．本研究では，名称や口コミなどの言語情報とユーザーの投稿画像などの画像情報を入力とする，マルチモーダルな POI の業種予測のための深層モデルを提案する．提案モデルでは，画像情報を有効に用いるため，(1)言語情報のみを用いた予測に対する損失の導入(2)POIごとに複数の画像を入力するためのPoolingの導入，の2点の工夫を行っている．ヤフー株式会社が保有するPOIデータベースから飲食店のデータセットを作成し，それを用いて評価を行ったところ，言語情報や画像情報のみを用いるベースラインに比べて，提案手法で業種予測の性能の改善が確認された．

Paper : 言語情報と画像情報を用いたPOIの業種予測のためのマルチモーダル深層モデル（外部サイト）