News

人工知能を用いた言語処理エンジンで、国際コンペティションにて大差で優勝

2015-05-26

Studio Ousia、人工知能を用いた言語処理エンジンで、国際コンペティションにて大差で優勝

大量のテキストデータを高速かつ高精度に解析する新しい言語処理エンジン「Semantic Kernel」を開発

2015年5月18日〜22日にイタリアのフィレンチェで開催された世界最大のウェブ研究に関する学術的な国際会議WWW2015(International World Wide Web Conference)内で行われた「エンティティ・リンキング」に関するコンペティションNamed Entity rEcognition and Linking (NEEL) Challengeで、弊社の提案したシステムが二位以降に大差をつけて優勝しました。

「エンティティ・リンキング(Entity linking)」とは、テキスト中のキーワード(固有表現)をWikipediaなどのナレッジベースに結びつけて処理するための自然言語処理の技術です。これによって、ナレッジベース上の高品質な情報を直接用いてテキストを解析することができます。例えば、「ジョン・F・ケネディ」という言葉を抽出し、それが大統領なのか空港なのかまでを識別することができます。また、言葉同士の近さを計算し、関連の強さを数値化することで、例えば、映画の作品名から直接出演者や監督を紐付けることなどが可能になり、より直感的にキーワード同士の近さを用いた言語処理を行うことができるようになります。

従来の言語処理の処理方法に比べて、言葉の曖昧性の問題を解消し、よりノイズの少ない高品質な言語処理が可能になるため、文書分類やタグ付け、感情分析、意味解析など様々な言語処理を高い精度で実現することができます。

また、米国立標準技術研究所(NIST)や米Microsoft Researchがエンティティ・リンキングに関するワークショップを開催するなど、近年世界的に高い注目を集めています。

今回のコンペティションは、エンティティ・リンキングにおいて世界的に著名な研究者が2013年より毎年開催しているもので、2014年度は米Microsoft Researchが優勝、今年度は企業や大学を含む21チームが世界中から参加しました。結果、弊社の提案したシステムは、80.67の解析精度のスコアを獲得し、二位のスコア(47.57)に対し、33.1の大差をつけました*1。スコアは、文章中からエンティティを検出する性能を数値にしたものです。

*1 スコア表は下記の画像を参照のこと。

NEEL Final Ranking

また、弊社では、当技術を商用製品として、提供するべく開発を行っております。今後、このエンジンをSemantic Kernelという製品として、2015年夏にリリースを行う予定です。

論文

発表資料

An End-to-End Entity Linking Approach for Tweets from Ikuya Yamada