Technology

賢くて高性能な言葉のAIを幅広い言語で実現する

近年、ディープラーニングを用いた自然言語処理の進展によって、従来はできなかった高度なタスクをコンピュータが解けるようになってきています。例えば、AIが文書を読解する性能を評価するデータセットSQuADや、様々なタスクでの言語を理解する性能を評価するGLUEのリーダーボード(最新のモデルのスコアの一覧)を見れば、これらのデータセットにおいてAIが実際に人間を超える性能を出したことが分かります。

こうしたディープラーニングによる言語処理において中核となる技術が、大規模なデータを用いて訓練された言語理解モデルです。近年のディープラーニングのモデルの性能は、この言語理解モデルの優劣で決まるといっても過言ではありません。

Studio Ousiaでは、Wikipediaに記述された実世界に関する膨大な知識を用いた賢い言語理解モデルの技術開発に継続的に取り組んでいます。
弊社では、研究成果の1つとして英語、日本語、中国語を含む12言語に対応した多言語モデルであるWikipedia2Vecを2018年に公開しました。Wikipedia2VecはWikipediaの記事中のテキストとリンクを使ってモデルの訓練を行うことで、Wikipediaに記述された知識を効率的に学習させるソフトウェアです。世界中の幅広い言語で展開されているWikipediaを用いることで、多くの言語で高性能なモデルの学習を実現しています。

Wikipedia2Vecは、弊社内の製品の中核の技術として使用されているほか、2016年に発表された論文は170編をこえる文献から引用され、世界中の企業や研究機関で幅広く使われています。例えば、米国の大手資産運用企業であるBlackRockは、2019年に金融システムにおいて重要なエンティティ(固有名詞や専門用語)の認識システムをWikipedia2Vecを用いて構築したことを発表しました。また、同じくルートヴィヒ・マクシミリアン大学ミュンヘンとシーメンスによる2019年の研究は、Wikipedia2VecとGoogleの開発したBERTの2つの言語理解モデルをあわせて用いることで最先端のモデルの性能をこえるモデルを開発できることを示しました。
その他、映画のストーリーの分析テキスト分類ヘルスケア文書からの情報抽出知識ベースの補完などの最先端のシステムで幅広く活用されています。

下記の図はWikipedia2Vecの学習したエンティティに関する知識を低次元に写像して視覚化したものです。

また、弊社では研究成果をコンペティションへの参加やリーダーボードへの投稿を行うことで積極的に評価しています。
これまでに著名な国際会議で開催されたコンペティションにおいて4回の優勝1回の準優勝をするなどの成果を残しています。2017年には、世界最大のAIの国際会議NIPSでの早押しクイズAIのコンペティションWikipedia2Vecを用いたモデルで出場し、AI間のコンペティションで優勝し、全米のクイズチャンピオンで構成される人間のチームと対戦し、大差(465対200)で勝利しました。

弊社では高性能な言語理解モデルを日本語を含む幅広い言語で実現するための技術開発に継続的に取り組むとともに、高性能なモデルを用いた実世界のビジネス課題の解決に積極的に挑戦して参ります。

Awards

Open Source Softwares

  • Wikipedia2Vec: 単語とエンティティに関するベクトル表現をWikipediaから学習するためのツール
  • mprpc: Pythonで動作する高速なRemote procedure call (RPC) ライブラリ
  • mojimoji: Pythonで動作する高速な日本語の半角・全角文字の変換ライブラリ

Papers

LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention

Ikuya Yamada, Akari Asai (University of Washington), Hiroyuki Shindo (NAIST), Hideaki Takeda (NII) and Yuji Matsumoto (RIKEN AIP)
Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Wikipedia2Vec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from Wikipedia

Ikuya Yamada, Akari Asai (University of Washington), Jin Sakuma (The University of Tokyo), Hiroyuki Shindo (NAIST), Hideaki Takeda (NII), Yoshiyasu Takefuji (Keio University), Yuji Matsumoto (RIKEN AIP)
Conference on Empirical Methods in Natural Language Processing (EMNLP), system demonstrations, 2020

Neural Attentive Bag-of-Entities Model for Text Classification

Ikuya Yamada, Hiroyuki Shindo (NAIST)
The SIGNLL Conference on Computational Natural Language Learning (CoNLL), 2019 (to appear)

Trick Me If You Can: Human-in-the-loop Generation of Adversarial Examples for Question Answering

Eric Wallace (U. Maryland), Pedro Rodriguez (U. Maryland), Shi Feng (U. Maryland), Ikuya Yamada, Jordan Boyd-Graber (U. Maryland)
Transactions of the Association for Computational Linguistics (TACL), 2019

Representation Learning of Entities and Documents from Knowledge Base Descriptions

Ikuya Yamada, Hiroyuki Shindo (NAIST), Yoshiyasu Takefuji (Keio)
International Conference on Computational Linguistics (COLING), 2018

Studio Ousia's Quiz Bowl Question Answering System

Ikuya Yamada, Ryuji Tamaki, Hiroyuki Shindo (NAIST), Yoshiyasu Takefuji (Keio)
First NIPS ’17 Competition, The Springer Series on Challenges in Machine Learning, 2018

Learning Distributed Representations of Texts and Entities from Knowledge Base

Ikuya Yamada, Hiroyuki Shindo (NAIST), Hideaki Takeda (NII), Yoshiyasu Takefuji (Keio)
Transactions of the Association for Computational Linguistics (TACL), 2017

Segment-Level Neural Conditional Random Fields for Named Entity Recognition

Motoki Sato (NAIST), Hiroyuki Shindo (NAIST), Ikuya Yamada, Yuji Matsumoto (NAIST)
International Joint Conference on Natural Language Processing (IJCNLP), 2017

Named Entity Disambiguation for Noisy Text

Yotam Eshel (Technion), Noam Cohen (Technion), Kira Radinsky (Technion, eBay), Shaul Markovitch (Technion), Ikuya Yamada, Omer Levy (University of Washington)
The SIGNLL Conference on Computational Natural Language Learning (CoNLL), 2017

Ensemble of Neural Classifiers for Scoring Knowledge Base Triples

Ikuya Yamada, Motoki Sato (NAIST), Hiroyuki Shindo (NAIST)
WSDM Cup (Cambridge, UK), 2017

Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation

Ikuya Yamada, Hiroyuki Shindo (NAIST), Hideaki Takeda (NII), Yoshiyasu Takefuji (Keio)
The SIGNLL Conference on Computational Natural Language Learning (CoNLL), (Berlin, Germany), 2016, pp.250-259

Enhancing Named Entity Recognition in Twitter Messages Using Entity Linking

Ikuya Yamada, Hideaki Takeda (NII), Yoshiyasu Takefuji (Keio)
ACL 2015 Workshop on Noisy User-generated Text (Beijing, China), 2015, pp.136-140
(Shared task winner)

An End-to-End Entity Linking Approach for Tweets

Ikuya Yamada, Hideaki Takeda (NII), Yoshiyasu Takefuji (Keio)
WWW 2015 Workshop on Making Sense of Microposts (Florence, Italy), 2015, pp.55-56
(Competition winner)

Evaluating the Helpfulness of Linked Entities to Readers

Ikuya Yamada, Tomotaka Ito, Shinsuke Takagi, Shinnosuke Usami, Hideaki Takeda (NII), Yoshiyasu Takefuji (Keio)
26th ACM Conference on Hypertext and Social Media (Santiago Downtown, Chile), 2014, pp.169-178