Publications

CONFERENCE (DOMESTIC) 検索における分散表現を用いた類似度定量化

齋藤 祐樹, 田頭 幸浩, 小野 真吾, 田島 玲

第8回データ工学と情報マネジメントに関するフォーラム (DEIM2016)

February 29, 2016

情報検索のタスクにおいてクエリとドキュメントの類似度は検索精度に大きく影響を与える重要な指標の 1 つである. 一般的に, クエリとドキュメントの類似度として局所表現を利用し各単語に次元を割り当て, その各次元 の重みを元にスコアを計算する手法が用いられる. 局所表現に基づく指標は疎性を利用して高速に計算できる一方, 言 い換えや略記表記などクエリに含まれる文字列を明示的に含まないドキュメントに対して適切に評価を行うことが難 しい. これは多様な商品名や型番が用いられる商品検索においては, 特に課題となっている. 本稿では単語を分散表現 として扱い, 分散表現から得られる類似度をクエリとドキュメント間の類似度を表わす指標として用いる手法を提案 する. 具体的にはクエリとドキュメントそれぞれに含まれる単語の分散表現の和を取り, それらのコサイン類似度を計 算する. そのコサイン類似度をクエリとドキュメント間の類似度とし, 得られた類似度と既存の特徴量からランク学習 によって予測モデルを学習する. このクエリとドキュメント間の類似度は意味的な近さを考慮したものとなっている. Yahoo!ショッピングの検索ログを用いて予測精度の評価を行い提案手法の有効性を検証した.

PDF : 検索における分散表現を用いた類似度定量化