MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation 

  • MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.5]
    MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。 我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 15:59:20 GMT)
  • 「MMLU-ProX extends the challenging MMLU-Pro benchmark to encompass 13 typologically diverse languages: English (EN), Chinese (ZH), Japanese (JA), Korean (KO), French (FR), German (DE), Spanish (ES), Portuguese (PT), Arabic (AR), Thai (TH), Hindi (HI), Bengali (BN), and Swahili (SW).」、「By carefully translating the same set of questions across all languages, MMLU-ProX facilitates direct comparison of model performance across linguistic boundaries while controlling for question difficulty.」というベンチマーク。多言語で評価可能なベンチマークを使うと言語間差異がよくわかる。
  • プロジェクトサイトはMMLU-ProX: A Multilingual Benchmark for Advanced LLM Evaluation

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies

  • An Expanded Massive Multilingual Dataset for High-Performance Language Technologies [21.4]
    高品質な多言語単言語コーパスと並列コーパスのコレクションであるHPLT v2を提案する。 データのモノリンガル部分は193言語をカバーする8Tトークンを含み、並列データは51言語をカバーする380万の文ペアを含む。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 11:24:09 GMT)
  • 「The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages.」という大規模データセットの提案。「We release HPLT v2 under the permissive Creative Commons Zero (CC0) license and provide the code to replicate our pipeline.」とライセンスはCC zero
  • プロジェクトサイトはHPLT – High Performance Language Technologies、リポジトリはGitHub – hplt-project/HPLT-textpipes: Step-by-step schematic description of data processing in HPLT

Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment 

  • Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment [35.2]
    提案手法は,暗黙の報奨によって適切に整合した英語モデルからの好みを捉え,反復学習を通じて他言語に伝達する手法である。 2回に分けて微調整したLlama3はウィンレートを平均12.72%改善し、X-AlpacaEvalのリーダーボード上でのトレーニング言語全体の長さ制御ウィンレートを5.97%向上させた。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 17:33:01 GMT)
  • 「we propose a novel approach that captures learned preferences from well-aligned English models by implicit rewards and transfers them to other languages through iterative training.」、とのことで英語の選好をマルチリンガルに転送する手法の提案。「Multilingual Responses Generation、Implicit Cross-lingual Rewarding、Preference Transfer Training」の3つからなる
  • リポジトリはGitHub – ZNLP/Implicit-Cross-Lingual-Rewarding

The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models

  • The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.4]
    多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。 この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 16:25:16 GMT)
  • 多言語対応に関するサーベイ。
  • 日本語が割と健闘しているように見えるが、ほんとなんやろか。

mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval 

  • mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.2]
    本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。 本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。 英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
    論文  参考訳(メタデータ)   (Fri, 31 Jan 2025 16:24:46 GMT)
  • 多言語でのInstruction Followingベンチマーク、「mFollowIR is built on top of the TREC NeuCLIR collections and spans the Persian, Chinese, and Russian languages.」
  • リポジトリはGitHub – orionw/FollowIR: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructionsとのことだが、マルチリンガル版はまだアップロードされていない?

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model 

  • Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.2]
    多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。 異なる言語群に対する学習がいかに異なるかを検討する。 私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
    論文  参考訳(メタデータ)   (Thu, 09 Jan 2025 10:26:14 GMT)
  • Large Vision-Language Modelにおける多言語化の検証、英語のパフォーマンスを低下させることなく対応可能な言語数などに焦点を当てている。「our analysis reveals that one can (i) include as many as 100 training languages simultaneously (ii) with as little as 25-50% of non-English data, to greatly improve multilingual performance while retaining strong English performance. We further find that (iii) including non-English OCR data in pre-training and instruction-tuning is paramount for improving multilingual text-in-image understanding.」は興味深い結果。LLaVAアーキテクチャ、2.8BのPhi3.5、Llama 3 8Bでの検証。
  • その後、「After benchmarking different 7-9B parameter LLMs, we find that Aya-Expanse and Qwen 2.5 give the overall best results.」の結果、Aya-ExpanseとQwen 2.5を用いてモデル構築を行っている。
  • リポジトリはCenturio: On Drivers of Multilingual Ability of Large Vision-Language Model

Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier 

  • Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier [72.6]
    8Bおよび32Bパラメータ多言語モデルの新世代であるAya Expanseモデルファミリを導入する。 Cohere For AIとCohereでの数年間の研究を活用することで、Aya Expanseは多言語パフォーマンスにおける新たな最先端技術を確立している。 Aya Expanse 8B と 32B が主要なオープンウェイトモデルより優れていることを示すために,23言語に翻訳された Arena-Hard-Auto データセットの評価を行った。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 15:41:06 GMT)
  • Cohereによる多言語LLM、公開モデルの論文。他の公開モデルより高性能を主張。
  • リポジトリはCohereForAI/aya-expanse-8b · Hugging FaceCohereForAI/aya-expanse-32b · Hugging Face

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

  • Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [50.4]
    多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。 改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
    論文  参考訳(メタデータ)   (Wed, 04 Dec 2024 13:27:09 GMT)
  • GlobalなMMLU、元のデータセットの文化的バイアス、単純な翻訳では解消しきれない問題に関する言及が興味深い
  • データセットはCohereForAI/Global-MMLU · Datasets at Hugging Face

BayLing 2: A Multilingual Large Language Model with Efficient Language Alignment 

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

  • All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.9]
    ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。 様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。 このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 15:44:42 GMT)
  • きわめて多い言語のLLM評価ベンチマーク。タスクはVQA。
  • リポジトリはAll Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages