Software/Data
大量の高次元ベクトルデータからクエリとして指定されたベクトルデータの近傍に存在するデータを高速に検索するソフトウェアです。 大規模知識データを本格的に利用するための分散RDFストレージマネジャのプロトタイプシステムです。 ラベルの種類数が膨大な場合(10^4 - 10^6)のマルチラベル分類問題に対し、高速かつ精度良く予測を行う分類器の実装です。 skip-gram model with negative samplingの逐次学習アルゴリズムのC++実装です。
技術解説(Yahoo! JAPAN Tech Blog):
https://techblog.yahoo.co.jp/oss/yskip/
論文:
Incremental Skip-gram Model with Negative Sampling(外部サイト)
言語処理のトップ会議EMNLPにて発表した論文“A Visually-grounded First-person Dialogue Dataset with Verbal and Non-verbal Responses”のデータセットです。 Yahoo!知恵袋は知恵共有のサービスで、参加者がお互いに知恵や知識をQ&Aやノートで共有できます。本データは、ヤフー株式会社が下記の期間にYahoo!知恵袋のデータベースから抽出した解決済みの質問と回答です。
期間:2016年4月1日-2019年3月31日 国立情報学研究所(NII)(外部サイト)のホームページからのダウンロードの形式で公開してます。利用に関する詳細、お申し込みは国立情報学研究所(NII)の「Yahoo! 知恵袋データ(第3版)」利用手続きのページ(外部サイト)をご確認ください。 本データは以下の期間に「Yahoo!検索」で検索された全クエリ(ユーザーが検索時に入力した単語やフレーズ)の中から、NTCIRの第12サイクル(NTCIR-12)で設定された研究課題に対する関連度の高いクエリを抽出したものです。本データで使用しているのは異なる数十人以上のユーザーが検索に用いたクエリに限られ、「Yahoo!検索」ユーザー個人の操作履歴や識別子、属性といった個人情報は一切含んでいません。 期間:2009年7月-2013年6月 情報アクセス技術の評価ワークショップ NTCIR (情報検索システム評価用テストコレクション構築プロジェクト NII Testbeds and Community for Information access Research)(外部サイト) の参加者向けに提供され、同ワークショップに参加する研究グループが無償で活用できます。 YJ Captions DataはMS COCOデータセット(外部サイト)をベースにした、日本語の画像キャプションデータセットです。マイクロソフトによりリリースされたMS COCOの画像に対し、新たに弊社クラウドソーシングサービスを利用して、画像の内容を説明するキャプションを日本語で付与しました。画像自体はMS COCOのサイトからまとめてダウンロード可能です。
キャプション数:約12万
本データは(Akasaki and Kaji ACL 2017)(外部サイト)において使用された雑談発話検出のためのデータセットです。 Japanese Visual Genome VQA DatasetはVisual Genome(外部サイト)をベースにした日本初の大規模なVisual Question Answering (VQA)データセットです。新たに弊社クラウドソーシングサービスを利用して、Visual Genome DatasetのFreeform QAに対応する日本語のQAを付与しました。画像自体はVisual Genomeのサイトからまとめてダウンロード可能です。
QAペア数:約80万
人工知能のトップ会議IJCAIにて発表した論文“Deep Learning Based Multi-modal Addressee Recognition in Visual Scenes with Utterances”のデータセットです。 本データは以下の論文で事後アンサンブル手法の比較のために使われた128個の要約モデルとその出力を含むデータセットです。
論文:Frustratingly Easy Model Ensemble for Abstractive Summarization (EMNLP 2018)
本データは以下の論文で使用された防災クラウドデータ(防災アプリから得られた都市動態の集計データ)です。
論文:DeepCrowd: A Deep Model for Large-Scale Citywide Crowd Density and Flow Prediction (IEEE TKDE) 本データは日本語言語理解ベンチマークで、モデルの学習・評価に用いることができます。文書分類タスク、文ペア分類タスク、質問応答タスクが含まれます。本ベンチマークは早稲田大学河原研究室との共同研究で構築しました。 本データは以下の論文で使用されたYJ Covid-19 Prediction Data(位置集計データと検索集計データからCovid-19の新規感染者数を予測するデータ)です。
論文:Multiwave COVID-19 Prediction from Social Awareness using Web Search and Mobility Data (KDD2022)Software
NGT(Neighborhood Graph and Tree for Indexing)
概要
提供方法
big3store
概要
提供方法
AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-Label Classification
概要
提供方法
yskip: Incremental Skip-gram Model with Negative Sampling
概要
提供方法
LSTM-VAE for text modeling
詳しくは "Better Exploiting Latent Variables in Text Modeling" をご覧ください。
Data
VFD Dataset (Japanese)
概要
論文では様々な社会的状況で画像内の人物が話しかけた言葉の返答をモデル化しています。
本データセットはGazeFollow Dataset (Recasens et al.,2015)に基づいており、GazeFollow Datasetに存在する、(1)シーン画像、(2)話者の視線情報を引き継いでいます。 論文で使用したデータセットを作成するため、新たに日本語で(3)話者の発話テキスト、および(4)返答者の言語的および非言語的返答の2つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
画像はhttp://gazefollow.csail.mit.edu/(外部サイト)で入手可能です。
提供方法
Yahoo!知恵袋データ(第3版)
概要
質問数:約263万
回答数:約670万
提供方法
Yahoo!検索の検索クエリデータ
概要
提供方法
詳細は、NTCIR(外部サイト)のページをご確認ください。
※Yahoo! JAPAN 提供のデータを使用するタスクへの参加申し込みは終了しています。
YJ Captions Dataset
概要
提供方法
YJ Chat Detection Dataset
概要
提供方法
LINEヤフーの研究開発をご覧ください。
Japanese Visual Genome VQA Dataset
概要
提供方法
Visual Scenes with Utterances Dataset
概要
論文では様々な社会的状況で画像内の人物が話しかけている相手を予測しています。
本データセットはGazeFollow Dataset (Recasens et al.,2015)に基づいており、GazeFollow Datasetに存在する、(1)シーン画像、(2)話者の画像と頭の位置情報、および(3)話者の視線情報を引き継いでいます。
論文で使用したデータセットを作成するため、新たに(4)話者の発話テキスト、および(5)発話が宛てられた人の2つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
画像はhttp://gazefollow.csail.mit.edu/(外部サイト)で入手可能です。
提供方法
Experimental Dataset for Post-Ensemble Methods
概要
提供方法
ヤフー防災クラウドデータ
概要
期間:2017年4月1日〜7月9日(100日間)
エリア:東京都と大阪府の地域のみ
メッシュサイズ:約450mメッシュ
(スコアの正規化、k匿名性処理済み)
提供方法
LINEヤフーの研究開発をご覧ください。
JGLUE: Japanese General Language Understanding Evaluation
概要
提供方法
YJ Covid-19 Prediction Data
概要
mobility data
期間:2020年2月〜2021年6月
エリア:東京23区のみ
search data
期間:2020年2月〜2021年6月
対象検索クエリ:論文に掲載されている44のcovid-19症状クエリ
提供方法
LINEヤフーの研究開発をご覧ください。