東京大学松尾研究室、大規模言語モデル「Llama 2」に追加学習を行った70億パラメータの日本語LLM「ELYZA-japanese-Llama-2-7b」を公開
2023年9月5日(火)
東京大学松尾研究室発・AIスタートアップのELYZAは8月29日、Metaが開発した大規模言語モデル(LLM)である「Llama 2」に対し、日本語による追加事前学習を行ない、商用利用可能な70億パラメータの日本語LLM「ELYZA-japanese-Llama-2-7b」を開発し、公開した。
現在日本では、複数の企業が独自に日本語LLMの開発に取り組んでいるが、2兆トークンものテキストで学習されたMetaの「Llama 2」などと比較すると、まだまだ小規模なものに留まっているのが現状となっている。この背景には、計算リソースの不足や、日本語で利用できるテキストデータの少なさなどがある。ELYZAでは、英語を始めとした他の言語で学習されたLLMの能力を日本語に引き継ぎ、日本語で必要な学習量を減らすことで、日本語LLMの研究開発を加速させることができるとの考え方の下で、多言語LLMの日本語化に取り組んできた。今回はそのプロジェクトの成果の一つとして、Metaの「Llama 2」をベースに日本語の能力を向上させたモデルの開発に成功したため、その一部の公開となった。また、近日中に公開予定の技術ブログでは、「Llama 2」を日本語化する中で得られた知見やノウハウについての詳細を共有する予定。
本モデルは公開されている日本語のLLMとしては最大級の規模となっており、研究および商業目的での利用が可能なモデルとしての公開となる。
「ELYZA-japanese-Llama-2-7b」は、GitHubでデモが公開されている。
(川原 龍人/びぎねっと)
その他のニュース
- 2024/11/22 Oracle、Red Hat Enterprise Linux 9ベースの「Oracle Linux 9.5」をリリース
- 2024/11/22 ReiserFSがLinuxカーネルのサポートを外れる
- 2024/11/22 オープンソースの仮想化プラットフォーム「Proxmox Virtual Environment 8.3」リリース
- 2024/11/22 「Rocky Linux 9.5」リリース
- 2024/11/21 Arch Linuxのメニューベースのインストーラ「archinstall 3.0」リリース
Think ITメルマガ会員登録受付中
Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。