Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model 

  • Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.2]
    多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。 異なる言語群に対する学習がいかに異なるかを検討する。 私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Thu, 09 Jan 2025 10:26:14 GMT)
  • Large Vision-Language Modelにおける多言語化の検証、英語のパフォーマンスを低下させることなく対応可能な言語数などに焦点を当てている。「our analysis reveals that one can (i) include as many as 100 training languages simultaneously (ii) with as little as 25-50% of non-English data, to greatly improve multilingual performance while retaining strong English performance. We further find that (iii) including non-English OCR data in pre-training and instruction-tuning is paramount for improving multilingual text-in-image understanding.」は興味深い結果。LLaVAアーキテクチャ、2.8BのPhi3.5、Llama 3 8Bでの検証。
  • その後、「After benchmarking different 7-9B parameter LLMs, we find that Aya-Expanse and Qwen 2.5 give the overall best results.」の結果、Aya-ExpanseとQwen 2.5を用いてモデル構築を行っている。
  • リポジトリはCenturio: On Drivers of Multilingual Ability of Large Vision-Language Model

Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier 

  • Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier [72.6]
    8Bおよび32Bパラメータ多言語モデルの新世代であるAya Expanseモデルファミリを導入する。 Cohere For AIとCohereでの数年間の研究を活用することで、Aya Expanseは多言語パフォーマンスにおける新たな最先端技術を確立している。 Aya Expanse 8B と 32B が主要なオープンウェイトモデルより優れていることを示すために,23言語に翻訳された Arena-Hard-Auto データセットの評価を行った。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 15:41:06 GMT)
  • Cohereによる多言語LLM、公開モデルの論文。他の公開モデルより高性能を主張。
  • リポジトリはCohereForAI/aya-expanse-8b · Hugging FaceCohereForAI/aya-expanse-32b · Hugging Face

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

  • Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [50.4]
    多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。 改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
    論文  参考訳(メタデータ)   (Wed, 04 Dec 2024 13:27:09 GMT)
  • GlobalなMMLU、元のデータセットの文化的バイアス、単純な翻訳では解消しきれない問題に関する言及が興味深い
  • データセットはCohereForAI/Global-MMLU · Datasets at Hugging Face

BayLing 2: A Multilingual Large Language Model with Efficient Language Alignment 

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

  • All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.9]
    ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。 様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。 このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 15:44:42 GMT)
  • きわめて多い言語のLLM評価ベンチマーク。タスクはVQA。
  • リポジトリはAll Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Multilingual Large Language Models: A Systematic Survey 

  • Multilingual Large Language Models: A Systematic Survey [39.0]
    本稿では,多言語大言語モデル(MLLM)の最新研究を包括的に調査する。 まず,MLLMのアーキテクチャと事前学習の目的について論じ,多言語機能に寄与する重要なコンポーネントや方法論を強調した。 本稿では,MLLMの言語間知識,推論,人的価値との整合性,安全性,解釈可能性,専門的応用に関する詳細な分類とロードマップを示す。
    論文  参考訳(メタデータ)   (Sun, 17 Nov 2024 13:21:26 GMT)
  • マルチリンガルなLLMのサーベイ。MLLMのMは(最近は)マルチモーダルであることが多いので若干戸惑う。
  • リポジトリはGitHub – tjunlp-lab/Awesome-Multilingual-LLMs-Papers: Awesome-Multilingual-LLMs-Papers

Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models

  • Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [105.0]
    我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。 我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。 実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 11:23:18 GMT)
  • 「Our key idea is to decompose and extract language-agnostic ability-related weights from LLMs, and transfer them across different languages by simple addition and subtraction operations without training.」という多言語能力の抽出とそのモデルマージ手法、MEAT: Multi-lingual Ability Extraction and Transfer approachを提案。「Our approach MAET achieves better performance than the competitive baseline methods (e g , continual pre-training and model merging with task vector) in multi-lingual complex reasoning tasks, including mathematical reasoning tasks and scientific reasoning tasks.」とのこと。
  • リポジトリはhttps://github.com/RUCAIBox/MAET

Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis

  • Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis [19.4]
    大規模言語モデル(LLM)の探索技術は主に英語に焦点を合わせており、世界の言語の大部分を見下ろしている。 複数のオープンソースのLCMモデルで実験を行い、探索精度、層間の傾向、および複数の言語に対する探索ベクトル間の類似性を解析した。
    論文  参考訳(メタデータ)   (Sun, 22 Sep 2024 14:14:05 GMT)
  • 多言語での動作解析、「(1) a consistent performance gap between high-resource and lowresource languages, with high-resource languages achieving significantly higher probing accuracy; (2) divergent layer-wise accuracy trends, where high-resource languages show substantial improvement in deeper layers similar to English; and (3) higher representational similarities among high-resource languages, with low-resource languages demonstrating lower similarities both among themselves and with high-resource languages.」とのこと
  • Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?  – arXiv最新論文の紹介 (devneko.jp)でも思ったが、この手の動作解析はとても面白い。

EMMA-500, EuroLLM

マルチリンガルさを特徴とするLLMの開発も行われている。

  • EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.5]
    EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。 本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
    論文  参考訳(メタデータ)   (Thu, 26 Sep 2024 14:40:45 GMT)
  •  MaLA Corpus (It contains 939 languages, 546 of which have more than 100k tokens and are used for training our EMMA-500 model, and 74 billion (B) whitespace delimited tokens in total.)とそれを活用したLlama 2-basedなLLM EMMA-500、240言語を対象としたベンチマークPolyWrite の提案。
  • リポジトリはMaLA-LM (MaLA-LM) (huggingface.co)
  • EuroLLM: Multilingual Language Models for Europe [76.9]
    オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。 これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。 マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 16:51:36 GMT)
  • 「EuroLLM project with the goal of creating a suite of LLMs capable of understanding and generating text in all European Union languages (Bulgarian, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hungarian, Irish, Italian, Latvian, Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, Slovenian, Spanish, and Swedish) as well as some additional relevant languages (Arabic, Catalan, Chinese, Galician, Hindi, Japanese, Korean, Norwegian, Russian, Turkish, and Ukrainian).」というLLM構築プロジェクトの紹介。規模は小さいものの機械翻訳での性能は悪くなさそう?
  • リポジトリはEuroLLM – a utter-project Collection (huggingface.co)

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? 

  • Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? [40.5]
    我々は、英語中心のLLMが、その強い性能にもかかわらず、それぞれの支配言語に「思考」があるかどうかを考察する。 実験の結果,Llama2は内在言語として英語のみに依存しているのに対し,日本語固有のスワロー語とLLM-jpは日本語と英語の両方を使用し,二重内在言語を呈していることがわかった。 任意の対象言語に対して、モデルは最も密接に関連する潜在言語を優先的に活性化する。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 13:05:41 GMT)
  • Llama2、その日本語強化(日本語を用いた継続学習)バージョンであるSwallow、日本語・英語のバランスをとったコーパスで構築されたLLM-jpにおける多言語動作の比較。
  • 3モデルの挙動の違い、文化的側面がある新学期に関する問いの違いが面白い
  • 抽象度が進んだ数学や論理処理だと動作はどうなるんだろう?centricな言語が中心になるとして継続学習モデルだと日本語なんやろうか。