Semantic Kernelのテクノロジ

Semantic Kernelは、機械学習を用いた、エンティティリンキングを行うシステムです。技術的には、以下のような特徴があります。

End-to-Endなエンティティリンキング

従来のエンティティリンキングのシステムにおいては、文書中のエンティティの出現位置を検出するために、固有表現抽出器 (NER) が使われており、特に、Twitterなどのテキストにおいて、NERのエラーがエンティティリンキングの性能に影響を与えていました。弊社は、End-to-Endなエンティティリンキング手法1, 2を提案し、エンティティリンキングに関する著名な国際コンペティションで二回、大差をつけて優勝しました。

人間に役立つエンティティの検出

Wikipediaには、人間からみて役に立ちづらいエンティティ(例: 日本、袋、乗り物)が多数含まれているため、タグ付けやテキスト解析にエンティティを使用する際に、ノイズが入ってしまうため、問題になってきました。弊社では、人間から見て、検出したエンティティが「役に立つか」どうか(Helpfulness)という指標を提案し3、著名な国際会議にて発表いたしました。

DBpediaを用いたエンティティのクラスの検出

Semantic Kernelは、DBpedia Ontology Classesを用いた、エンティティのクラス(例: 俳優、企業)を検出します。これにより、特定の種類のエンティティのみを文書から検出するというような処理を実現することが可能になります。


  1. Ikuya Yamada, Hideaki Takeda, Yoshiyasu Takefuji: An End-to-End Entity Linking Approach for Tweets, WWW 2015 Workshop on Making Sense of Microposts (Florence, Italy), 2015, pp.55-56

  2. Ikuya Yamada, Hideaki Takeda, Yoshiyasu Takefuji: Enhancing Named Entity Recognition in Twitter Messages Using Entity Linking, ACL 2015 Workshop on Noisy User-generated Text (Beijing, China), 2015

  3. Ikuya Yamada, Tomotaka Ito, Shinsuke Takagi, Shinnosuke Usami, Hideaki Takeda, Yoshiyasu Takefuji: Evaluating the Helpfulness of Linked Entities to Readers, 26th ACM Conference on Hypertext and Social Media (Santiago Downtown, Chile), 2014, pp.169-178