x-LLaMA – arXiv最新論文の紹介

Extrapolating Large Language Models to Non-English by Aligning Languages [56.9]
我々は,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習された大規模言語モデル(LLM)を強化することを提案する。実験の結果、x-LLaMAモデルは6つの非英語言語で平均42.50%上回った。
論文参考訳（メタデータ） (Wed, 9 Aug 2023 13:32:06 GMT)
一般的に英語に偏っているマルチリンガルなLLMを英語以外の言語に対応させていく手法の提案。「we perform instruction-tuning on LLM with mixed cross-lingual general task instruction data and translation task instruction data.」で作ったx-LLaMA-7Bが Chinese-Alpaca-7Bと同等というのは興味深い結果。
日英バイリンガル大規模言語モデルではrinna/bilingual-gpt-neox-4b · Hugging Faceやstabilityai/japanese-stablelm-base-alpha-7b · Hugging Faceが出ているが、Llama2をこのような手法で強化したモデルとどちらが優れているかは気になるところ。
リポジトリはOwenNJU/x-LLM · GitHub

コメントを残す

コメントを残す コメントをキャンセル