JAQKET: クイズを題材にした日本語QAデータセット

NEWS

はじめに

Wikipediaの記事名を答えとした,日本語のオープンドメインQAデータセットです.日本語による質問応答・機械読解研究の推進を目的としています.一般のクイズ問題では,答えが必ず固有名詞になるとは限りませんが,本データセットではベンチマークを容易にするために,「答えが必ずWikipedia記事名(によって指される実世界の実体)に正規化される」 よう,以下の方法で作成しました:

本サイトでは以下のデータ・モデルを提供しています.

データダウンロード

[2021/10/12 追記] 『AI王 〜クイズAI日本一決定戦〜 第1回コンペティション』において使用した評価データを以下に公開します.

※公開している開発・評価データは,論文 [鈴木ら 2020] で用いたデータに修正・拡充を加えたものであるため,データセットの分割および内容が論文執筆時点のものと一部異なります.あらかじめご了承ください.

データ仕様

クイズ問題・正解ペアは JSONL フォーマットで提供しています.1行が1つの問題に対応しており,以下の要素を含みます.

キー 説明
qid 問題ID "ABC01-01-0003"
question 問題文 "格闘家ボブ・サップの出身国はどこでしょう?"
answer_entity 正解Wikipedia記事名 "アメリカ合衆国"
answer_candidates 解答候補Wikipedia記事名のリスト ["アメリカ合衆国","カナダ",...]
original_question 正規化される前の問題文 "格闘家ボブ・サップの出身国はどこでしょう?"
original_answer 正規化される前の正解(訓練データのみ) "アメリカ"

※問題文の正規化として,Unicode正規化(NFKC),文中の振り仮名や注釈の除去を行っています.

実際のデータ例

以下にクイズ問題・解答ペアのデータ例を示します.

{
  "qid": "QA20QBIK-0002",
  "question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?",
  "answer_entity": "ササ",
  "answer_candidates": [
    "ササ", "ススキ", "ミヤマキンバイ", "リョウブ", "タムシバ",
    "ミツガシワ", "ハクサンフウロ", "ウラジロナナカマド",
    "イタヤカエデ", "チシマザサ", "タテヤマウツボグサ",
    "トウゴクミツバツツジ", "ミズメ", "イワイチョウ",
    "ネズミモチ", "ヤシオツツジ", "ショウジョウバカマ",
    "ムラサキヤシオツツジ", "ヤクシマシャクナゲ", "クマザサ"
  ],
  "original_question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?"
}
{
  "qid": "QA20QBIK-0026",
  "question": "北海道の中心に位置することから「北海道のへそ」を名乗る、ラベンダーで有名な都市はどこ?",
  "answer_entity": "富良野市",
  "answer_candidates": [
    "富良野市", "名寄市", "三笠市", "幕別町", "北見市",
    "深川市", "岩見沢市", "網走市", "美唄市", "芦別市",
    "美深町", "中富良野町", "滝川市", "南富良野町", "当別町",
    "赤平市", "歌志内市", "紋別市", "湧別町", "士別市"
  ],
  "original_question": "北海道の中心に位置することから「北海道のへそ」を名乗る、ラベンダーで有名な都市はどこ?"
}
...

また,参加者が人力で解いて作戦を練るのに役立つかもしれないデータ例をPDFドキュメントで公開しています.こちらもご参照ください.

[鈴木ら,2020]との作成方法の違い

[2021/10/11 更新] "answer_candidates" の生成方法が異なります.公開しているデータセットでは以下の方法で選択肢の付与を行いました.

  1. ⽇本語 Wikipedia エンティティベクトルを利⽤し,正解のエンティティと類似度の⾼い5件のエンティティのランダム重み付き和であるベクトルを求める
  2. 求めたベクトルと類似度の⾼いエンティティのうち, 拡張固有表現 ver.8 における固有表現クラスが同じものを優先して20件 "answer_candidates" として付与

※本内容は『AI王 〜クイズAI日本一決定戦〜 第1回コンペティション』の最終報告会 (2021/03/19) のクロージングにて開示を行ったものです.

データの統計量

問題文数 平均文字数/問題文 正解の異なり数
訓練データ 13061 48.22 8528
開発用データ1 995 50.57 983
開発用データ2 997 50.71 989

ベースラインモデル

BERT [Devlin et al. 2019] をベースにした読解に基づく解答モデルをベースラインとして提供しています. Huggingfaceによる実装をベースに,改変を加えたものです.

上記のベースラインモデルで使用する,読解対象となりえる Wikipedia 記事の本文をまとめたファイルをJSONLフォーマットで提供しています.

本文ファイルの仕様

1行が1つのWikipedia記事に対応しており,以下の要素を含みます.

キー 説明
title Wikipedia記事名 "ルーマニア"
text Wikipedia記事の本文 "ルーマニアは、東ヨーロッパに位置する..."

ライセンス・謝辞

Reference