弊社製品の内部で使われている、単語やエンティティのベクトル表現をWikipediaから学習できるツール「Wikipedia2Vec」をオープンソースとして公開しました。
※画像は、TensorFlow Projectorを使ってWikipedia2Vecの学習したベクトルを視覚化したもの。意味的に近いエンティティがベクトル空間で近くにマッピングされている。
日本語、英語をはじめとした、12個の言語での訓練済みモデルや他のモデルとの性能比較もあわせて公開しています。
https://wikipedia2vec.github.io/
ご利用いただける言語一覧:
- 英語
- アラビア語
- 中国語
- オランダ語
- フランス語
- ドイツ語
- イタリア語
- 日本語
- ポーランド語
- ポルトガル語
- ロシア語
- スペイン語