Loading...

News

独自の社内用語や専門用語を認識できるように改善した言語モデル「LUXE」を開発、デモを公開

News
2025-03-07

Studio Ousiaは、固有表現抽出、エンティティリンキング、表記揺れ、名寄せなどのタスクの性能を改善し、LLMの活用に重要な社内テキストの整理に応用可能な言語モデル「LUXE」を開発、デモ(β版)を公開いたしました。

昨今、「AIエージェント」というキーワードが注目されているように、大規模言語モデル(以下、LLM)を活用して、業務効率化を図る取り組みが活発化しています。 その過程において、社内にある大量のテキストデータから、特定の業務処理に必要な情報のみを抽出し、LLMで処理をすることが求められますが、整理されていない大量のテキストデータから必要な情報のみを抽出することが大きな課題となっています。

特に、社内のテキストデータにおいては、社内のみで使われる独自用語や製品名、業界専門用語などを多く含んでいます。LLMにこれらの用語の意味を解釈して適切に処理させることは困難であり、具体的な業務においてLLMを活用した取り組みを検討する際の高いハードルとなっています。

このような課題の解決策として、弊社では大量のテキストデータに対し、テキストのトピックに関連するタグや、テキストで言及されている社内用語や業界専門用語、製品名などの固有名タグを付与することでテキストデータを整理する手法を提案いたします。

テキストデータを整理することで、社内ナレッジベースの構築にもつながり、今まで活用できていなかった大量のテキストデータから必要な情報を抽出したり、LLMを活用して様々な確度で分析、把握することができるようになります。

この度公開したデモは、弊社メンバーが開発したオープンな言語モデルであるLUKE*1を拡張したモデル「LUXE」のデモ(β版)となります。 LUKEでサポートされていたWikipediaに含まれる用語の抽出に加えて、テキストのトピックやカテゴリの予測、社内用語や業界専門用語なども追加できるようにモデルを拡張したものです。 また、現在の対応言語は日本語のみとなりますが、今後は多言語にも対応するよう開発を進めてまいります。

エンティティリンキング、固有表現抽出、タグの付与の自動化、固有名詞や用語の表記揺れや名寄せにおいて課題のある方や、社内用語や専門用語をもとにテキストを整理したい方など、ご関心のある方はぜひデモに触れてみていただければと思います。

最後に、弊社は「テキストを「使えるナレッジ」へ」をビジョンとし、自然言語処理を活用してテキストデータから新たなインサイトを生み出すことを目的に活動をしております。 LUXEを活用して特定用途に特化したアプリケーションの受託開発もおこなっておりますので、ぜひお問い合わせください。

デモサイトURL https://huggingface.co/spaces/studio-ousia/luxe-demo


  1. LUKEは、単語とエンティティ(人や物などの事物)の情報を同時に扱うことができる、知識強化されたエンコーダ型言語モデルです。モデルが学習したエンティティの情報を活用することにより、質問応答や固有表現抽出などの、知識を使うことが重要なタスクにおいて高い性能を示します。LUKEについて詳しくは、下記の論文をご覧ください。 - Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, and Yuji Matsumoto. LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention. EMNLP 2020 

Top