JAQKET: クイズを題材にした日本語QAデータセット

NEWS

2021/10/12: 『AI王〜クイズAI日本一決定戦〜第1回コンペティション』で使用した評価用データを公開しました．併せて，データセットにおける解答選択肢の付与方法について掲載しました．
2021/01/20: 訓練データ・開発データ・テストデータ（未公開）で正解となりうるすべての Wikipedia 記事の本文をまとめたファイル all_entities.json.gz を公開しました．
2020/04/19: ベースライン解答モデルを訓練するためのコードを公開しました．
2020/03/17: 本日 13:15- 言語処理学会全国大会にて，本データセットに関するオンラインでのポスター発表（P2-24）を行いますので，ぜひ聴きにいらしてください．
2020/03/17: 本データセットを題材としたコンペティションについて概要を公開しました.詳細は以下のリンク先をご覧ください．
- AI王〜クイズAI日本一決定戦〜
2020/02/14: このデータセットを題材とした評価型ワークショップを2020年度に行う予定です．詳細の発表は春ころの予定です．
2020/02/14: データセットを公開しました．
2020/01/17: ウェブサイトを公開しました．

はじめに

Wikipediaの記事名を答えとした，日本語のオープンドメインQAデータセットです．日本語による質問応答・機械読解研究の推進を目的としています．一般のクイズ問題では，答えが必ず固有名詞になるとは限りませんが，本データセットではベンチマークを容易にするために，「答えが必ずWikipedia記事名（によって指される実世界の実体）に正規化される」 よう，以下の方法で作成しました：

訓練データ: 過去の早押しクイズ大会における使用問題をもとに，ルールベースで正規化
開発・テストデータ: クイズ作家の協力のもと，はじめから上記の条件を満たすよう作成

本サイトでは以下のデータ・モデルを提供しています．

クイズ問題・解答候補のペア
- 訓練・開発セットのみ公開しています．評価型ワークショップ開催予定の都合上，テストセットの公開は2021年3月以降に予定しています．
- その代わり，開発用セットをこちらで2つに分解してありますので，片方を擬似的なテストセットとして用いることが可能です．
BERT [Devlin et al. 2019] に基づいたベースライン読解解答モデル
- ベースラインモデルにおいて読解の手がかりになりえる Wikipediaの記事本文も提供しています．

データダウンロード

訓練データ (13,061問, 2020/02/14 公開):
- train_questions.json (10.9MB)
開発用データ1 (995問, 2020/02/14 公開):
- dev1_questions.json (834KB)
開発用データ2 (997問, 2020/02/14 公開):
- dev2_questions.json (847KB)
正解エンティティ候補リスト (2020/04/21 公開):
- labeled_entities.txt (21MB)
- 訓練データ・開発データ・評価データ（未公開）のすべての問題において，この候補リスト(約92万エンティティ)のいずれかが正解になります．

[2021/10/12 追記] 『AI王〜クイ>ズAI日本一決定戦〜第1回コンペティション』において使用した評価データを公開します．データを取得したい場合は，問い合わせ先のGoogle Groupまでお問い合わせ下さい．

※公開している開発・評価データは，論文 [鈴木ら 2020] で用いたデータに修正・拡充を加えたものであるため，データセットの分割および内容が論文執筆時点のものと一部異なります．あらかじめご了承ください．

データ仕様

クイズ問題・正解ペアは JSONL フォーマットで提供しています．1行が1つの問題に対応しており，以下の要素を含みます．

キー	説明	例
`qid`	問題ID	`"ABC01-01-0003"`
`question`	問題文	`"格闘家ボブ・サップの出身国はどこでしょう?"`
`answer_entity`	正解Wikipedia記事名	`"アメリカ合衆国"`
`answer_candidates`	解答候補Wikipedia記事名のリスト	`["アメリカ合衆国","カナダ",...]`
`original_question`	正規化される前の問題文	`"格闘家ボブ・サップの出身国はどこでしょう？"`
`original_answer`	正規化される前の正解（訓練データのみ）	`"アメリカ"`

※問題文の正規化として，Unicode正規化(NFKC)，文中の振り仮名や注釈の除去を行っています．

実際のデータ例

以下にクイズ問題・解答ペアのデータ例を示します．

{
  "qid": "QA20QBIK-0002",
  "question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?",
  "answer_entity": "ササ",
  "answer_candidates": [
    "ササ", "ススキ", "ミヤマキンバイ", "リョウブ", "タムシバ",
    "ミツガシワ", "ハクサンフウロ", "ウラジロナナカマド",
    "イタヤカエデ", "チシマザサ", "タテヤマウツボグサ",
    "トウゴクミツバツツジ", "ミズメ", "イワイチョウ",
    "ネズミモチ", "ヤシオツツジ", "ショウジョウバカマ",
    "ムラサキヤシオツツジ", "ヤクシマシャクナゲ", "クマザサ"
  ],
  "original_question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉？"
}
{
  "qid": "QA20QBIK-0026",
  "question": "北海道の中心に位置することから「北海道のへそ」を名乗る、ラベンダーで有名な都市はどこ?",
  "answer_entity": "富良野市",
  "answer_candidates": [
    "富良野市", "名寄市", "三笠市", "幕別町", "北見市",
    "深川市", "岩見沢市", "網走市", "美唄市", "芦別市",
    "美深町", "中富良野町", "滝川市", "南富良野町", "当別町",
    "赤平市", "歌志内市", "紋別市", "湧別町", "士別市"
  ],
  "original_question": "北海道の中心に位置することから「北海道のへそ」を名乗る、ラベンダーで有名な都市はどこ？"
}
...

また，参加者が人力で解いて作戦を練るのに役立つかもしれないデータ例をPDFドキュメントで公開しています．こちらもご参照ください．

サンプル問題・選択肢: sample_questions.pdf (634KB)
サンプル問題の正解: sample_answers.pdf (323KB)

[鈴木ら,2020]との作成方法の違い

[2021/10/11 更新] "answer_candidates" の生成方法が異なります．公開しているデータセットでは以下の方法で選択肢の付与を行いました．

⽇本語 Wikipedia エンティティベクトルを利⽤し，正解のエンティティと類似度の⾼い5件のエンティティのランダム重み付き和であるベクトルを求める
求めたベクトルと類似度の⾼いエンティティのうち, 拡張固有表現 ver.8 における固有表現クラスが同じものを優先して20件 "answer_candidates" として付与

※本内容は『AI王〜クイズAI日本一決定戦〜第1回コンペティション』の最終報告会 (2021/03/19) のクロージングにて開示を行ったものです．

データの統計量

	問題文数	平均文字数/問題文	正解の異なり数
訓練データ	13061	48.22	8528
開発用データ1	995	50.57	983
開発用データ2	997	50.71	989

ベースラインモデル

BERT [Devlin et al. 2019] をベースにした読解に基づく解答モデルをベースラインとして提供しています． Huggingfaceによる実装をベースに，改変を加えたものです．

GitHubレポジトリ: https://github.com/cl-tohoku/JAQKET_baseline

上記のベースラインモデルで使用する，読解対象となりえる Wikipedia 記事の本文をまとめたファイルをJSONLフォーマットで提供しています．

all_entities.json.gz (1.9GB) [2021/01/20 更新]
- 訓練データ・開発データ・テストデータ（未公開）で正解となりうるすべての Wikipedia 記事の本文をまとめたファイルです．
candidate_entities.json.gz (365MB)
- 訓練データ・開発データで読解対象となる Wikipedia 記事を被覆した， all_entities.json のサブセットです．上記のベースラインシステムの動作確認に使用しています．

本文ファイルの仕様

1行が1つのWikipedia記事に対応しており，以下の要素を含みます．

キー	説明	例
`title`	Wikipedia記事名	`"ルーマニア"`
`text`	Wikipedia記事の本文	`"ルーマニアは、東ヨーロッパに位置する..."`

ライセンス・謝辞

学習データに含まれるクイズ問題の著作権は abc/EQIDEN 実行委員会に帰属します．東北大学において研究目的での再配布許諾を得ています．
開発データはクリエイティブ・コモンズ表示 - 継承 4.0 国際ライセンスの下に提供されています。
データに関するお問い合わせは <jaqket at googlegroups.com>までお気軽にお寄せください．
本データセットを利用した研究成果を発表される際は，以下の文献を参照いただけますと幸いです.
- 鈴木正敏, 鈴木潤, 松田耕史, ⻄田京介, 井之上直也. “JAQKET:クイズを題材にした日本語QAデータセットの構築”. 言語処理学会第26回年次大会(NLP2020) 発表論文集
本データセット構築の一部はJSPS科研費JP19H04162，JP19J13238の助成を受けたものです．学習用クイズ問題は，abc/EQIDEN実行委員会より研究目的での利用許可を頂きました．また，開発/評価用クイズ問題は，株式会社キュービックおよびクイズ法人カプリティオへ依頼して作成しました．記して感謝いたします．

Reference

[鈴木ら 2020] 鈴木正敏, 鈴木潤, 松田耕史, ⻄田京介, 井之上直也. “JAQKET:クイズを題材にした日本語QAデータセットの構築”. 言語処理学会第26回年次大会(NLP2020) 発表論文集 [PDF]
[Devlin et al. 2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. BERT: Pre-training of Deep Bidirectional Trans-formers for Language Understanding. InNAACL, volume 1,pages 4171–4186, 2019.