Software/Data

Software

NGT
big3store
AnnexML
yskip
LSTM-VAE

Data

VFD Dataset (Japanese)
Yahoo!知恵袋データ
Yahoo!検索の検索クエリデータ
YJ Captions Dataset
YJ Chat Detection Dataset
Japanese Visual Genome VQA Dataset
Visual Scenes with Utterances Dataset
Experimental Dataset for Post-Ensemble Methods
ヤフー防災クラウドデータ
JGLUE: Japanese General Language Understanding Evaluation
YJ Covid-19 Prediction Data

Software

NGT（Neighborhood Graph and Tree for Indexing）

概要

大量の高次元ベクトルデータからクエリとして指定されたベクトルデータの近傍に存在するデータを高速に検索するソフトウェアです。

提供方法

ソフトウェアダウンロード（外部サイト）
big3store

概要

大規模知識データを本格的に利用するための分散RDFストレージマネジャのプロトタイプシステムです。

提供方法

ソフトウェアダウンロード（外部サイト）
AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-Label Classification

概要

ラベルの種類数が膨大な場合（10^4 - 10^6）のマルチラベル分類問題に対し、高速かつ精度良く予測を行う分類器の実装です。

提供方法

ソフトウェアダウンロード（外部サイト）
yskip: Incremental Skip-gram Model with Negative Sampling

概要

skip-gram model with negative samplingの逐次学習アルゴリズムのC++実装です。

技術解説（Yahoo! JAPAN Tech Blog）: https://techblog.yahoo.co.jp/oss/yskip/

論文: Incremental Skip-gram Model with Negative Sampling（外部サイト）

提供方法

ソフトウェアダウンロード（外部サイト）
LSTM-VAE for text modeling
詳しくは "Better Exploiting Latent Variables in Text Modeling" をご覧ください。

Data

VFD Dataset (Japanese)

概要

言語処理のトップ会議EMNLPにて発表した論文“A Visually-grounded First-person Dialogue Dataset with Verbal and Non-verbal Responses”のデータセットです。
論文では様々な社会的状況で画像内の人物が話しかけた言葉の返答をモデル化しています。
本データセットはGazeFollow Dataset （Recasens et al.,2015）に基づいており、GazeFollow Datasetに存在する、（1）シーン画像、（2）話者の視線情報を引き継いでいます。論文で使用したデータセットを作成するため、新たに日本語で（3）話者の発話テキスト、および（4）返答者の言語的および非言語的返答の２つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
画像はhttp://gazefollow.csail.mit.edu/（外部サイト）で入手可能です。

提供方法

データダウンロード（外部サイト）
Yahoo!知恵袋データ（第3版）

概要

Yahoo!知恵袋は知恵共有のサービスで、参加者がお互いに知恵や知識をQ&Aやノートで共有できます。本データは、ヤフー株式会社が下記の期間にYahoo!知恵袋のデータベースから抽出した解決済みの質問と回答です。

期間：2016年4月1日－2019年3月31日
質問数：約263万
回答数：約670万

提供方法

国立情報学研究所（NII）（外部サイト）のホームページからのダウンロードの形式で公開してます。利用に関する詳細、お申し込みは国立情報学研究所（NII）の「Yahoo! 知恵袋データ（第3版）」利用手続きのページ（外部サイト）をご確認ください。
Yahoo!検索の検索クエリデータ

概要

本データは以下の期間に「Yahoo!検索」で検索された全クエリ(ユーザーが検索時に入力した単語やフレーズ)の中から、NTCIRの第12サイクル(NTCIR-12)で設定された研究課題に対する関連度の高いクエリを抽出したものです。本データで使用しているのは異なる数十人以上のユーザーが検索に用いたクエリに限られ、「Yahoo!検索」ユーザー個人の操作履歴や識別子、属性といった個人情報は一切含んでいません。

期間：2009年7月－2013年6月

提供方法

情報アクセス技術の評価ワークショップ NTCIR (情報検索システム評価用テストコレクション構築プロジェクト NII Testbeds and Community for Information access Research)（外部サイト）の参加者向けに提供され、同ワークショップに参加する研究グループが無償で活用できます。
詳細は、NTCIR（外部サイト）のページをご確認ください。
※Yahoo! JAPAN 提供のデータを使用するタスクへの参加申し込みは終了しています。
YJ Captions Dataset

概要

YJ Captions DataはMS COCOデータセット（外部サイト）をベースにした、日本語の画像キャプションデータセットです。マイクロソフトによりリリースされたMS COCOの画像に対し、新たに弊社クラウドソーシングサービスを利用して、画像の内容を説明するキャプションを日本語で付与しました。画像自体はMS COCOのサイトからまとめてダウンロード可能です。

キャプション数：約12万

提供方法

データダウンロード（外部サイト）
YJ Chat Detection Dataset

概要

本データは(Akasaki and Kaji ACL 2017)（外部サイト）において使用された雑談発話検出のためのデータセットです。

提供方法
LINEヤフーの研究開発をご覧ください。
Japanese Visual Genome VQA Dataset

概要

Japanese Visual Genome VQA DatasetはVisual Genome（外部サイト）をベースにした日本初の大規模なVisual Question Answering (VQA)データセットです。新たに弊社クラウドソーシングサービスを利用して、Visual Genome DatasetのFreeform QAに対応する日本語のQAを付与しました。画像自体はVisual Genomeのサイトからまとめてダウンロード可能です。

QAペア数：約80万

提供方法

データダウンロード（外部サイト）
Visual Scenes with Utterances Dataset

概要

人工知能のトップ会議IJCAIにて発表した論文“Deep Learning Based Multi-modal Addressee Recognition in Visual Scenes with Utterances”のデータセットです。
論文では様々な社会的状況で画像内の人物が話しかけている相手を予測しています。
本データセットはGazeFollow Dataset （Recasens et al.,2015）に基づいており、GazeFollow Datasetに存在する、（1）シーン画像、（2）話者の画像と頭の位置情報、および（3）話者の視線情報を引き継いでいます。論文で使用したデータセットを作成するため、新たに（4）話者の発話テキスト、および（5）発話が宛てられた人の２つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
画像はhttp://gazefollow.csail.mit.edu/（外部サイト）で入手可能です。

提供方法

データダウンロード（外部サイト）
Experimental Dataset for Post-Ensemble Methods

概要

本データは以下の論文で事後アンサンブル手法の比較のために使われた128個の要約モデルとその出力を含むデータセットです。

論文：Frustratingly Easy Model Ensemble for Abstractive Summarization (EMNLP 2018)

提供方法

データダウンロード
ヤフー防災クラウドデータ

概要

本データは以下の論文で使用された防災クラウドデータ（防災アプリから得られた都市動態の集計データ）です。

論文：DeepCrowd: A Deep Model for Large-Scale Citywide Crowd Density and Flow Prediction (IEEE TKDE)
期間：2017年4月1日〜7月9日（100日間）
エリア：東京都と大阪府の地域のみ
メッシュサイズ：約450mメッシュ
（スコアの正規化、k匿名性処理済み）

提供方法
LINEヤフーの研究開発をご覧ください。
JGLUE: Japanese General Language Understanding Evaluation

概要

本データは日本語言語理解ベンチマークで、モデルの学習・評価に用いることができます。文書分類タスク、文ペア分類タスク、質問応答タスクが含まれます。本ベンチマークは早稲田大学河原研究室との共同研究で構築しました。

提供方法

データダウンロード（外部サイト）
YJ Covid-19 Prediction Data

概要

本データは以下の論文で使用されたYJ Covid-19 Prediction Data（位置集計データと検索集計データからCovid-19の新規感染者数を予測するデータ）です。

論文：Multiwave COVID-19 Prediction from Social Awareness using Web Search and Mobility Data (KDD2022)

mobility data
期間：2020年2月〜2021年6月
エリア：東京23区のみ

search data
期間：2020年2月〜2021年6月
対象検索クエリ：論文に掲載されている44のcovid-19症状クエリ

提供方法
LINEヤフーの研究開発をご覧ください。

Software/Data

Software

Data

Software

NGT（Neighborhood Graph and Tree for Indexing）

概要

提供方法

big3store

概要

提供方法

AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-Label Classification

概要

提供方法

yskip: Incremental Skip-gram Model with Negative Sampling

概要

提供方法

LSTM-VAE for text modeling

Data

VFD Dataset (Japanese)

概要

提供方法

Yahoo!知恵袋データ（第3版）

概要

提供方法

Yahoo!検索の検索クエリデータ

概要

提供方法

YJ Captions Dataset

概要

提供方法

YJ Chat Detection Dataset

概要

提供方法

Japanese Visual Genome VQA Dataset

概要

提供方法

Visual Scenes with Utterances Dataset

概要

提供方法

Experimental Dataset for Post-Ensemble Methods

概要

提供方法

ヤフー防災クラウドデータ

概要

提供方法

JGLUE: Japanese General Language Understanding Evaluation

概要

提供方法

YJ Covid-19 Prediction Data

概要

提供方法