DOCTORAL DEGREE HOLDERS INTERVIEW [MY DECISION] - ここが原点、ここから未来。

独学で開いてきた
知的好奇心の扉、
研究成果は
オープンソースモデル
として社会へ。

株式会社Studio Ousia(スタジオ・ウーシア)
ソフトウェアエンジニア
鈴木 正敏さん
2021年3月 博士後期課程修了
博士論文タイトル
Modeling Textual Entity Knowledge for Question Answering
(質問応答のためのエンティティ知識モデリング)

学校の喧騒に馴染むことができなかった小中高時代。
一人、自宅のリビングで好きな勉強を続けて。

初めてパソコンに触れたのは小学校中学年の頃、親戚の家だったと記憶しています。そのうち自宅にも置かれるようになり、インターネットやゲームに興ずるようになりました。ほぼ時期を同じくして興味を持ったものに「クイズ」があります。当時はテレビでクイズ番組が数多く放送されており、それらを家族で見て楽しんでいたのですが、それから約15年後、日本語のクイズを題材とした質問応答(自然言語処理)の研究に携わることになるのですから、不思議な符合を感じます。

高校に入ってからは独学でプログラミングを始めました。自分で書いたコード通りにプログラムを動かせるのがとても面白かったですね。私は、このプログラミングだけではなく、小中高を通じて、学習はほぼすべて自分一人で取り組んできました。…というのも、今であれば非常に感受性が高いHSP(Highly Sensitive Person)と見立てられるのかもしれませんが、大きな声が飛び交う学校の騒然とした雰囲気に馴染めず、別室登校、あるいは自宅学習という形で初等・中等教育期を過ごしました。親や家庭教師が積極的に教育に関与するホームスクーリングではなく、リビングのテーブルで一人、コツコツと学習してきました。計画を立てたり、自分自身に目標を課したりということはしませんでしたが、勉強だけは続けた方がいいと思っていましたし、両親も私の個性や気質を理解し、静かに温かく守ってくれました。

特に努力を要したのは、大学受験の時だったでしょうか。高校は通信制課程で、週に一度スクーリング(学習の一環として学校に出向いて行う対面授業や実習)がありましたが、それだけでは質量ともに足りないので、使っているものとは別の教科書を出版社から取り寄せて受験勉強をしました。無事合格することができた時は、頑張りが実ったとうれしかったですね。

コンピュータに興味があり、英語と数学も得意、ということから情報知能システム総合学科に進みましたが、やはりすぐには学生生活に慣れることができず、工学部の学生支援室などからアドバイスを受け、通常は学部4年間のところ6年で卒業するような学修計画を立てました。

長じて現在は、人と会ったり新しい環境に身を置いたりすることに、抵抗を感じることも少なくなりました。学会やセミナーなど、大勢の聴衆の前で発表することも苦ではありませんし、最近では全国ネットのクイズ番組への出場も経験しました(編注:後述)。乾研究室での6年間は、研究活動はもちろん、社会的存在としての自分自身を少しずつ変えていった得難い時間だったと思っています。 

コンピュータがどれだけ“知的”になれるかを試す「質問応答」。
モデルを一から構築、開かれた研究資源に。

私は英語が好きで、自宅での学習を進める中で興味を深め、TOEICを始めさまざまな英語の試験にもチャレンジしてきましたが(編注:TOEIC Listening & Reading Test 990点満点、2017年)、「言葉」は学ぶほどに探究心を刺激してくれる存在です。“言語を数学で扱う” NLP(自然言語処理)に興味を持つことは自然な成り行きだったのかもしれません。また、学部3年生の時に乾さん(編注:乾健太郎教授。現在、アラブ首長国連邦MBZUAI Professor、東北大学言語AI研究センター教授)の人工知能に関する講義を聴講する機会があったのですが、その中で、クイズを解くAIがアメリカで研究されていると聞き、俄然興味が湧きました。

修士課程から、与えられた質問に対し、知識に基づいて適切な回答を提供する「質問応答」の研究に、クイズを題材として取り組み始めました。当時、質問応答はNLPにおける最も重要な応用問題の一つとされながらも、国内においてはデータセットやモデルといった研究資源が乏しく、諸外国(主に米国)と比べて盛り上がりに欠ける状況でした。

まずは学習用のデータを作ることから着手しました。著作権などの問題が生じないよう、競技クイズの大会「abc/EQIDEN」の主宰者に協力を仰ぎ、過去に使用された約1万2000問のクイズ問題の提供を受けました。日本語向けモデルを構築する段階で、高性能な計算機が必要だったのですが、ちょうどGoogleが機械学習用に設計された専門ハードウェアを研究者に無償提供するというプログラムを始めました。渡りに船とばかりに応募、審査を経て、利用させていただくことになりました。

研究における試行錯誤と言うのはいわば前提のようなものですが、私の場合はデータ収集やモデルの構築など初めての試みが多く、前例がない、参考にできるものがない、という苦労が付いて回りました。たまたま振ったバットがボールに当たったのかもしれませんが(笑)、構築したデータやモデルを、誰でも使いやすい形式の公開リソースとして開かれたものとすることができました。「使わせてもらっています」「役に立っています」というフィードバックが何よりもうれしいですね。

「言葉はつながりの基軸。だからいたるところにNLPのニーズはある」——師の言葉を実感。

当該分野の活性化を目指し、2020年から毎年開催しているのが、クイズを題材とした日本語質問応答システムのコンペティション「AI王〜クイズAI日本一決定戦〜」です。私も発起人の一人であり、実行委員として企画・運営に携わっています。回を重ねるごとにコンペティションに参加するシステムもレベルアップし、YouTubeの人気クイズチャンネルにも取り上げられるなど話題を呼んでいます。

研究を抜きにしてもクイズはライフワークであり、前言の通り、いくつかのクイズ番組にも出演しています。『パネルクイズ アタック25 Next』(BSJapanext 、2022年8月28日放送)に出場した際は、司会の谷原章介さんから「鈴木さんはクイズを解くAIを研究されているようですが、人間とAIはどちらが強いですか」と振られ、「今は私よりもAIの方が強いかもしれないですが、今日は人間が相手なので大丈夫だと思います」と返しました。つかみはOKだったようですが、結局優勝はできませんでした(笑)。

博士課程修了後は、NLPを応用したソリューション事業を展開する会社に就職し、ソフトウェア開発に携わっています。ドクター人材の多くは、就職する際、研究を通じて築いた人的ネットワークの中で、キャリアを形成していくケースが多いように思います。私の場合も、学会での出会いが縁となり、入社することになりました。当社は、BtoB(企業間取引)が主ですが、昨今のお客様のニーズとしてはChatGPTに代表される生成AIを活用した事業の効率化・生産性の向上、あるいは顧客エクスペリエンスの多様化などが多いですね。乾さんが「言葉は社会を成り立たせる不可欠な基盤。だからNLPのニーズはどこにでもある」とおっしゃっていたのを実感しています。

今後の目標としては、研究者としてはトップカンファレンスに論文を通すこと。仕事人としては、お客様に喜んでもらえる、社会に役立つものを提供していきたい。そして、具体的な像はまだ結べていないのですが、AIで人を強くできたら、と思っています。私は、学校生活に馴染めず、少し遠回りしてきましたが、周囲の皆さんに支えていただき、学びを深め、研究を進めることができました。多くの方に感謝しつつ、これまでもそうであったように「焦らず腐らず諦めず」、目の前のことに取り組んでいきたいと思っています。

(2024年11月 インタビュー)

略歴

【略歴】2010年 宮城県仙台第一高等学校 通信制課程卒業、2016年 東北大学 工学部情報知能システム総合学科卒業、2018年 東北大学 大学院情報科学研究科 博士前期課程修了、2021年 同研究科 博士後期課程修了。博士(情報科学)。2019〜2021年 日本学術振興会 特別研究員(DC2)、2021年〜 株式会社 Studio Ousia ソフトウェアエンジニア、および東北大学 データ駆動科学・AI教育研究センター 学術研究員。博士課程および現職では、主に質問応答システムの研究・開発に従事するほか、東北大学が公開している日本語BERTの開発・管理を担当。日本語質問応答のコンペティション「AI王」の実行委員。共著に『大規模言語モデル入門』(技術評論社、2023年)、『大規模言語モデル入門Ⅱ~生成型LLMの実装と評価』(同、2024年)。2016年 情報処理学会東北支部学生奨励賞、2018年 言語処理学会第24回年次大会若手奨励賞、2018年 第1回対話システムライブコンペティション優秀賞、2019年 情報処理学会第241回自然言語処理研究会優秀研究賞、2021年 言語処理学会第27回年次大会委員特別賞を受賞。