News

人工知能を用いた自然言語解析技術で、国際コンペティションにて二度目の優勝

2015-08-05

2015年7月26日-31日に中国北京で行われた、世界最大の自然言語処理に関する国際会議ACL(Association for Computational Linguistics)で行われた、Noisy User-generated Text (W-NUT)のコンペティションにて、弊社の提案した手法が他のチームに大差をつけて優勝いたしました。二位はシンガポール科学技術研究庁(Infocomm)、三位はNational Research Council Canadaで、弊社の提案した手法は、二位にF1値1で5-10ポイントの差をつけました。

スコア表

左図:Results on segmentation only (no types)(固有表現の抽出精度)、右図:Results on segmenting and categorizing entities into 10 types(固有表現の抽出及び分類精度)

今回のタスクは、ツイートから、1) 固有表現(固有名詞等のワード)を抽出し、2) それらをカテゴリ(人、地名、会社等)に分類する、という二つのタスクから成り立っています。今回は弊社で開発しているEntity Linking2エンジン「Semantic Kernel」を利用し、WikipediaやDBpedia3等の知識ベースから取得可能な高品質な知識を活用して固有表現を認識することで、従来、該当タスクで一般的に行われてきた手法よりも飛躍的に精度を向上しました。

コンペティションの概要をまとめた論文4では、下記のように紹介されています。

The submission from the winning team (ousia) achieved surprisingly good performance on this difficult task, near the level of inter-rater agreement.

参考訳: 勝利したOusiaチームは、困難なタスクに対し、評価を行う人間に近い驚くほどに良い精度を実現した。

このコンペティションは、固有表現抽出手法の評価を目的に、該当分野で世界的に著名な複数の研究者が開催しているもので、IBM ResearchやMicrosoft Researchがスポンサーをしています。

今回の優勝は、5月に行われたWWW2015(International World Wide Web Conference)内の「エンティティ・リンキング」に関するコンペティションNamed Entity rEcognition and Linking (NEEL) Challengeでの優勝に続いて、Entity Linkingエンジン「Semantic Kernel」の二度目の優勝5となります。今後はEntity Linkingエンジン「Semantic Kernel」の継続的な開発と自然言語処理分野のアプリケーションへの応用を検討して参ります。

論文

発表資料

Enhancing Named Entity Recognition in Twitter Messages Using Entity Linking from Ikuya Yamada

会場の様子

ACL会場の様子 ※写真はACL本会議の様子です。


  1. 固有表現抽出等で一般的に使用されるスコア 

  2. エンティティ・リンキング(Entity linking)は、テキスト中のキーワード(固有表現)をWikipediaなどのナレッジベースに結びつけて処理するための自然言語処理の技術。これによって、知識ベース上の高品質な情報を直接用いてテキストの解析が可能になる。従来の言語処理の処理方法に比べて、言葉の曖昧性の問題を解消し、よりノイズの少ない高品質な言語処理が可能になるため、文書分類やタグ付け、感情分析、意味解析など様々な自然言語処理のタスクを高い精度で実現できる。 

  3. DBpedia: http://wiki.dbpedia.org/ 

  4. Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition 

  5. http://www.ousia.jp/ja/page/ja/2015/05/www2015/