News
新しい大規模言語モデル(LLM)「LEIA」を公開
News
2024-04-24
弊社Chief Scientistの山田が中心となって開発した新しい大規模言語モデル(LLM)LEIA(Lightweight Entity-based Inter-language Adaptation)が公開されました。
LLMの性能は、実質的な世界標準言語である英語において最も性能が高いことが広く知られています。LEIAは、LLMが蓄えている英語の知識を他の言語から使えるようにする訓練を施すことで、英語以外の言語でのLLMの性能を向上させる新しい学習の手法を採用しています。
詳細や具体的な手法については、こちらの記事や論文をご参照ください。
- LEIA: 言語間転移学習でLLMを賢くする新しい方法 (zenn.dev)
- LEIA: Facilitating Cross-Lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation (arxiv.org)
モデルの公開
今回は、日本語・英語の2言語LLMであるSwallowの7Bと13Bのモデルに対してLEIAによる訓練を施して性能向上を行ったモデルを公開します。
- Leia-Swallow-7b (Hugging Face)
- Leia-Swallow-13b (Hugging Face)
ライセンスは、Swallowと同様のLlama 2 Community Licenseです。これらのモデルは、日本語の6個の 質問応答データセットでの評価で、Swallowよりも性能が改善していることを確認しています。