JCommonsenseQA 2.0: 計算機と人の協働による常識推論データセットの改良 - Yahoo! JAPAN R&D

Publications

CONFERENCE (DOMESTIC) JCommonsenseQA 2.0: 計算機と人の協働による常識推論データセットの改良

栗原健太郎 (早稲田大学), 河原大輔 (早稲田大学), 柴田知秀

言語処理学会第29回年次大会 (NLP2023)

March 16, 2023

計算機モデルの言語理解能力のさらなる向上に向けて、ベンチマークを改良し、より高度な言語理解能力を測ることができるようにする必要がある。本研究では常識推論データセット JCommonsenseQA に焦点をあて、計算機と人の協働によってデータセットを改良する手法を提案する。以前構築したデータセットでは誤り選択肢群の中に正解とあまり関連がない選択肢が含まれていることが難易度を下げている要因の一つであると考え、まず正解と類似している誤り選択肢をテキスト生成モデルで自動生成し、次に自動生成された誤り選択肢候補の中からクラウドソーシングで適切な選択肢を選択することによって、難易度の高いデータセットを構築する。実験の結果、構築したデータセットは以前のデータセットよりも難易度が高くなっていることを確認した。

Natural Language Processing

Paper : JCommonsenseQA 2.0: 計算機と人の協働による常識推論データセットの改良 (external link)