JAQKET:クイズを題材にした日本語QAデータセット

NEWS

はじめに

Wikipediaの記事名を答えとした,日本語のオープンドメインQAデータセットです.日本語による質問応答・機械読解研究の推進を目的としています.一般のクイズ問題では,答えが必ず固有名詞になるとは限りませんが,本データセットではベンチマークを容易にするために,「答えが必ずWikipedia記事名(によって指される実世界の実体)に正規化される」 よう,以下の方法で作成しました:

本サイトでは以下のデータ・モデルを提供しています.

データダウンロード

※開発データの分割は,論文 [鈴木ら 2020] の「開発A」「開発B」とは異なります。

データ仕様

train_questions.json / dev1_questions.json / dev2_questions.json

クイズ問題・正解ペアは JSONL フォーマットで提供しています.1行が1つの問題に対応しており,以下の要素を含みます.

キー 説明
qid 問題ID "ABC01-01-0003"
question 問題文 "格闘家ボブ・サップの出身国はどこでしょう?"
answer_entity 正解Wikipedia記事名 "アメリカ合衆国"
answer_candidates 解答候補Wikipedia記事名のリスト ["アメリカ合衆国","カナダ",...]
original_question 正規化される前の問題文 "格闘家ボブ・サップの出身国はどこでしょう?"
original_answer 正規化される前の正解(訓練データのみ) "アメリカ"

※問題文の正規化として,Unicode正規化(NFKC),文中の振り仮名や注釈の除去を行っています.

実際のデータ例

以下にクイズ問題・解答ペアのデータ例を示します.

{
  "qid": "QA20QBIK-0002",
  "question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?",
  "answer_entity": "ササ",
  "answer_candidates": [
    "ササ", "ススキ", "ミヤマキンバイ", "リョウブ", "タムシバ",
    "ミツガシワ", "ハクサンフウロ", "ウラジロナナカマド",
    "イタヤカエデ", "チシマザサ", "タテヤマウツボグサ",
    "トウゴクミツバツツジ", "ミズメ", "イワイチョウ",
    "ネズミモチ", "ヤシオツツジ", "ショウジョウバカマ",
    "ムラサキヤシオツツジ", "ヤクシマシャクナゲ", "クマザサ"
  ],
  "original_question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?"
}
{
  "qid": "QA20QBIK-0026",
  "question": "北海道の中心に位置することから「北海道のへそ」を名乗る、ラベンダーで有名な都市はどこ?",
  "answer_entity": "富良野市",
  "answer_candidates": [
    "富良野市", "名寄市", "三笠市", "幕別町", "北見市",
    "深川市", "岩見沢市", "網走市", "美唄市", "芦別市",
    "美深町", "中富良野町", "滝川市", "南富良野町", "当別町",
    "赤平市", "歌志内市", "紋別市", "湧別町", "士別市"
  ],
  "original_question": "北海道の中心に位置することから「北海道のへそ」を名乗る、ラベンダーで有名な都市はどこ?"
}
...

また,参加者が人力で解いて作戦を練るのに役立つかもしれないデータ例をPDFドキュメントで公開しています.こちらもご参照ください.

[鈴木ら,2020]との作成方法の違い

データの統計量

問題文数 平均文字数/問題文 正解の異なり数
訓練データ 13061 48.22 8528
開発用データ1 995 50.57 983
開発用データ2 997 50.71 989

ベースラインモデル

BERT [Devlin et al. 2019] をベースにした読解に基づく解答モデルをベースラインとして提供しています. Huggingfaceによる実装をベースに,改変を加えたものです.

上記のベースラインモデルで使用する,読解対象となりえる Wikipedia 記事の本文をまとめたファイルをJSONLフォーマットで提供しています.

all_entities.json, candidate_entities.json

1行が1つのWikipedia記事に対応しており,以下の要素を含みます.

キー 説明
title Wikipedia記事名 "ルーマニア"
text Wikipedia記事の本文 "ルーマニアは、東ヨーロッパに位置する..."

ライセンス・謝辞

Reference