Software/Data

Software

Data

Software

Data

  • Yahoo!知恵袋データ(第2版)

    概要

    Yahoo!知恵袋は知恵共有のサービスで、参加者がお互いに知恵や知識をQ&Aやノートで共有できます。本データは、ヤフー株式会社が下記の期間にYahoo!知恵袋のデータベースから抽出した解決済みの質問と回答です。

    期間:2004年4月-2009年4月
    質問数:約1600万
    回答数:約5000万

    提供方法

    国立情報学研究所(NII)(外部サイト)のホームページからのダウンロードの形式で公開してます。利用に関する詳細、お申し込みは国立情報学研究所(NII)の「Yahoo! 知恵袋データ(第2版)」利用手続きのページ(外部サイト)をご確認ください。

  • Yahoo!検索の検索クエリデータ

    概要

    本データは以下の期間に「Yahoo!検索」で検索された全クエリ(ユーザーが検索時に入力した単語やフレーズ)の中から、NTCIRの第12サイクル(NTCIR-12)で設定された研究課題に対する関連度の高いクエリを抽出したものです。本データで使用しているのは異なる数十人以上のユーザーが検索に用いたクエリに限られ、「Yahoo!検索」ユーザー個人の操作履歴や識別子、属性といった個人情報は一切含んでいません。

    期間:2009年7月-2013年6月

    提供方法

    情報アクセス技術の評価ワークショップ NTCIR (情報検索システム評価用テストコレクション構築プロジェクト NII Testbeds and Community for Information access Research)(外部サイト) の参加者向けに提供され、同ワークショップに参加する研究グループが無償で活用できます。
    詳細は、NTCIR(外部サイト)のページをご確認ください。
    ※Yahoo! JAPAN 提供のデータを使用するタスクへの参加申し込みは終了しています。

  • YJ Captions Dataset

    概要

    YJ Captions DataはMS COCOデータセット(外部サイト)をベースにした、日本語の画像キャプションデータセットです。マイクロソフトによりリリースされたMS COCOの画像に対し、新たに弊社クラウドソーシングサービスを利用して、画像の内容を説明するキャプションを日本語で付与しました。画像自体はMS COCOのサイトからまとめてダウンロード可能です。

    キャプション数:約12万

    提供方法

  • YJ Chat Detection Dataset

    概要

    本データは(Akasaki and Kaji ACL 2017)(外部サイト)において使用された雑談発話検出のためのデータセットです。

    提供方法

    本データは研究目的に限りご利用いただけます。
    ヤフー雑談検出研究対象発話内容書き起こしデータ 使用申請書に必要事項をご記入のうえ以下の宛先まで郵送でお願いします。
    大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、指導教員の方に申請をしていただけますようお願いします。

  • Japanese Visual Genome VQA Dataset

    概要

    Japanese Visual Genome VQA DatasetはVisual Genome(外部サイト)をベースにした日本初の大規模なVisual Question Answering (VQA)データセットです。新たに弊社クラウドソーシングサービスを利用して、Visual Genome DatasetのFreeform QAに対応する日本語のQAを付与しました。画像自体はVisual Genomeのサイトからまとめてダウンロード可能です。

    QAペア数:約80万

    提供方法

  • Visual Scenes with Utterances Dataset

    概要

    人工知能のトップ会議IJCAIにて発表した論文“Deep Learning Based Multi-modal Addressee Recognition in Visual Scenes with Utterances”のデータセットです。
    論文では様々な社会的状況で画像内の人物が話しかけている相手を予測しています。
    本データセットはGazeFollow Dataset (Recasens et al.,2015)に基づいており、GazeFollow Datasetに存在する、(1)シーン画像、(2)話者の画像と頭の位置情報、および(3)話者の視線情報を引き継いでいます。 論文で使用したデータセットを作成するため、新たに(4)話者の発話テキスト、および(5)発話が宛てられた人の2つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
    画像はhttp://gazefollow.csail.mit.edu/(外部サイト)で入手可能です。

    提供方法

  • Experimental Dataset for Post-Ensemble Methods

    概要

    本データは以下の論文で事後アンサンブル手法の比較のために使われた128個の要約モデルとその出力を含むデータセットです。

    論文:Frustratingly Easy Model Ensemble for Abstractive Summarization (EMNLP 2018)

    提供方法

  • YJ Constructive Comment Ranking Dataset

    概要

    本データは以下の論文で使用された建設的コメント順位付けのためのデータセットです

    論文:Dataset Creation for Ranking Constructive News Comments (ACL 2019)

    提供方法

  • Yahoo! Chiebukuro Extractive Headline Dataset

    概要

    本データは以下の論文で使用されたヤフー知恵袋の抽出型見出し生成のためのデータセットです。

    論文:Extractive Headline Generation Based on Learning to Rank for Community Question Answering (COLING 2018)

    提供方法

    本データは研究目的に限りご利用いただけます。
    ヤフー質問見出し生成研究対象質問データ 使用申請書に必要事項をご記入のうえ、以下のデータ使用申請書送付先にPDF形式でメールまたは郵送でお願いします。
    大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、指導教員の方に申請をしていただけますようお願いします。
  • データ使用申請書送付先

    メール

    yjresearch-data "at" mail.yahoo.co.jp

    郵送

    〒102-8282
    東京都千代田区紀尾井町1-3 東京ガーデンテラス紀尾井町 紀尾井タワー
    ヤフー株式会社
    Yahoo! JAPAN研究所