TOHOKU NLP LAB - 東北大学 乾・鈴木研究室TOHOKU NLP LAB - 東北大学 乾・鈴木研究室

MENU

Open Resources【公開資源】

公開ツール

依存構造で意味的に構成可能な分散表現 VecDCS

係り受けの構文解析したコーパスから、意味的に構成可能な単語ベクトルと統語ラベルの変換行列を学習するツールです。詳細は下記の文献にご参照ください。

知識ベース埋め込みによる知識ベース補完モデル glimvec

dynamic entity representationによるMachine Readingモデル der-network

日本語wikificationシステム jawikif

英作文支援のための用例検索システム PoEC

英語で作文をする際、ある表現が実際に使われているかを確かめるために、その用例を英文コーパスから容易に検索できるオンラインツールです。本サービスのコーパスは、自然言語処理関連の主要国際会議の論文を使っていますので、国際会議論文の執筆をサポートできます。詳しくは以下の文献をご覧ください。

PoEC (http://www.cl.ecei.tohoku.ac.jp/poec/sentsearch/)

仮説推論エンジン Phillip

整数線形計画法にもとづく高速な仮説推論エンジン ([1] の C++ 実装)

[1] Kazeto Yamamoto, Naoya Inoue, Kentaro Inui, Yuki Arase and Jun’ichi Tsujii. Boosting the Efficiency of First-order Abductive Reasoning Using Pre-estimated Relatedness between Predicates. International Journal of Machine Learning and Computing, Vol. 5, No. 2, pp. 114-120, April 2015. (DOI: 10.7763/IJMLC.2015.V5.493)

数量表現・時間表現の規格化ツール normalizeNumexp

数量表現や時間表現が示す数量・時間を、様々な表記・表現の異なりを吸収して計算機に認識させることができるツール

日本語述語項構造解析器 ChaPAS

文章中に出現する述語とその項構造(文内)を同定するツール。

日本語拡張モダリティ解析器 Zunda

文中のイベント(動詞や形容詞など)に対して、その真偽判断(イベントが起こったかどうか)、仮想性(仮定の話かどうか)などを解析するツールです。

公開リソース

日本語BERT訓練済みモデル

日本語版 Wikipedia をコーパスに用いて訓練した、汎用言語モデル BERT の訓練済みモデルです。
MeCab (ipadic) と WordPiece を用いて単語分割したモデルと、文字単位で単語分割したモデルの2種類を公開しています。
これらのモデルは、Hugging Face による自然言語処理ライブラリ Transformers でも訓練済みモデルとして利用可能です。

詳しくはこちら

解答可能性付き読解データセット

本データは、56651件の質問・解答・文書の組に対して、「文書の読解によって質問に答えることができるかどうか」の人手による判断が付与された読解データセットです。
およそ12000件の早押しクイズの問題と正解に対して、関連する Wikipedia 記事段落(最大5件)の文章を機械的に付与し、それぞれの問題・正解・文章の組に対して、読解による解答可能性のスコアをクラウドソーシングによって付与しました。

詳しくはこちら

トピック遷移構造付き生成歌詞データ

本データは,入力した単語の字数列(音符数列)とトピック遷移構造(ストーリー展開)を考慮し,自動的に生成された100曲分の歌詞となります.

詳しくはこちら

日本語Wikificationコーパス

本コーパスは、拡張固有表現タグ付きコーパス内の新聞記事(PNサブコーパス)340記事にアノテートされているENEに対して、対応するWikipediaエントリを付与したコーパスです。
日本語に対するEntity Linking, Wikificationの開発や評価に利用されることを想定して構築されました。

詳しくはこちら

日本語 Wikipedia エンティティベクトル

本データは、日本語版 Wikipedia の記事本文全文から学習した、単語、および Wikipedia で記事となっているエンティティの分散表現ベクトルです。

詳しくはこちら

Wikipedia記事への促進・抑制関係付与コーパス

本コーパスは、Wikipedia記事1,494に対して、概要文中に促進・抑制関係を付与したコーパスです。
クラウドソーシングを用いて、1つの記事に対し10人でアノテーションでしていただきました。

詳しくはこちら

評価対象-評価表現抽出用日本語Twitterデータセット

本データセットは、日本語Twitterに対して、評価対象-評価表現抽出のための2値ラベルを付与したコーパスと、評価対象および評価表現のスパンをアノテートしたコーパスからなるものです。

詳しくはこちら

機能表現タグ付与コーパス

現代日本語書き言葉均衡コーパス(BCCWJ)のYahoo!知恵袋ドメインの文書に機能表現の意味ラベルを付与しました。機能表現の意味ラベルは、つつじに基づいて独自に拡張をしたものです。付与仕様も合わせて公開しています。

松吉らによって付与されたモダリティとその周辺情報と、同じ文書集合を付与対象としていますので、モダリティ解析関連の研究に役立てることができます。
本コーパスを利用するには、BCCWJのオフライン版の利用契約を別途締結する必要があります。BCCWJについて詳しくはこちらをご覧ください。

詳しくはこちら

文節間限定関係コーパス1.0

文間の弱対立関係を認識するために,文節間の限定関係(条件,程度,範囲)をとらえる課題を文節間限定関係認識と呼びます.本コーパスは,その課題に取り組む際に,限定関係を人手で付与したコーパスです.
限定関係の仕様は,以下をご覧ください.

readme_confinement_corpus1.0.pdf

本コーパスの提供につきましては inuilabresources at gmail.com までメールにてご連絡ください.

言論マップコーパス

言論マッププロジェクトのために構築した,20種類のクエリと検索対象文に対して,意味的関係を付与したコーパス

詳しくはこちら

事象選択述語辞書

事象のモダリティに影響を与える述語(例 走るのをやめる)について、その一覧とモダリティへの影響についてまとめた辞書です。

詳しくはこちら

日本語評価極性辞書

日本語評価極性辞書(用言編)

用言を中心に収集した評価表現約5千件のリスト(小林の評価値表現辞書)を一部改編し,人手で評価極性情報を付与したデータ

日本語評価極性辞書(名詞編)

評価極性を持つ(複合)名詞,約8千5百表現に対して評価極性情報を付与した,人手によるチェック済みのデータ

詳しくはこちら

場所参照表現タグ付きコーパス

本コーパスは,Twitterからランダムにサンプリングしたテキストに現れる,「特定の場所を著者が想定している」と判断できる表現に対して,実際にどのエンティティを指しているかを人手で判断しエンティティ情報を付与したコーパスです.GeoNLPなどのジオパーズシステム,エンティティリンキングシステム等の開発や評価に利用することを想定して構築されました.

詳しくはこちら

Last-modified: 2020-06-08 (Mon) 16:55:51 (29d)

Recent Changes
Close