- XToM: Exploring the Multilingual Theory of Mind for Large Language Models [58.0]
LLMにおける既存の心の理論の評価は英語に限られている。 XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。 以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文 参考訳(メタデータ) (Tue, 03 Jun 2025 05:23:25 GMT) - 多言語でのLLM比較、「LLMs are equipped with multilingual understanding ability but fail in multi- lingual ToM reasoning tasks.」と結論。深い部分での言語間差異は残っているよう(とはいえ、一昔前に比べて差異は縮小しているようにも見える)
- リポジトリはGitHub – HKUST-KnowComp/XToM: Data and Code for paper “X-ToM: Exploring the Multilingual Theory of Mind for Large Language Models”
タグ: Multilingual
XRAG: Cross-lingual Retrieval-Augmented Generation
- XRAG: Cross-lingual Retrieval-Augmented Generation [21.5]
XRAGは,LLMの生成能力を評価するために設計されている。 XRAGは最近のニュース記事から構築されており、質問に答えるために外部の知識が必要であることを保証している。
論文 参考訳(メタデータ) (Thu, 15 May 2025 08:47:55 GMT) - クロスリンガル設定のRAGベンチマーク。LLMが内部知識からは答えられないように構築されている。
- 「(3) We find that in the monolingual retrieval setting, all evaluated LLMs face issues with Response Language Correctness an issue that has received little attention from the research community. (4) In the multilingual retrieval setting, the primary challenge for LLMs does not lie in non- English generation, but in reasoning over retrieved information across languages.」と意外に難しく、興味深い結果になっている。
- データを見てみたいところ。
How Reliable is Multilingual LLM-as-a-Judge?
How Reliable is Multilingual LLM-as-a-Judge? [11.6]
25言語を含む5つの多種多様なタスクにおいて、異なるモデルファミリーから5つのモデルを評価する。 一貫性は言語によって大きく異なり、低リソース言語では特にパフォーマンスが劣っていることが分かりました。 実世界のアプリケーションにおける多言語判断の整合性を改善するアンサンブル戦略を提案する。
論文 参考訳(メタデータ) (Sun, 18 May 2025 02:32:35 GMT)
マルチリンガル設定でのLLM as a judgeの性能評価。GPT-4oも苦労している印象の結果。「we find that powerful open-source models, such as Qwen- 2.5, achieve comparable performance to OpenAI models in multilingual judgment tasks.」や「Aya fails to demonstrate noticeable improvements. This suggests that fine- tuning with multilingual data may not directly enhance a model’s ability to perform accurate multi- lingual judgments.」など興味深い記載も多い。
When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners
- When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.5]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。 トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (Wed, 21 May 2025 08:35:05 GMT) - 「Drawing inspiration from cognitive neuroscience, which suggests that human reasoning functions largely independently of language processing, we hypothesize that LLMs similarly encode reasoning and language as separable components that can be disentangled to enhance multilingual reasoning」に基づき、「Through targeted interventions in the LLMs’ activation space, we demonstrate that removing language-specific information significantly improves reasoning performance across languages.」とのこと。
- 仮説も検証結果も非常に興味深い。LLMは人間の脳とは全く別のはずだが近い動き(機能分解)になっているのは何故なんだろう・・・
Multilingual Performance Biases of Large Language Models in Education
- Multilingual Performance Biases of Large Language Models in Education [39.1]
大規模言語モデル(LLM)は、教育環境においてますます採用されている。 この研究は、非英語の教育環境での使用が保証されているかどうかを確かめるものである。
論文 参考訳(メタデータ) (Thu, 24 Apr 2025 16:32:31 GMT) - 「However, we note that certain models can do terribly on some tasks and languages, so we recommend first verifying that a particular model works well in a particular language on a specific education-related task before deployment.」というまっとうな指摘はあるものの、「Particularly, we find that GPT4o and Gemini 2.0 perform consistently well across all languages with a few exceptions.」と多言語対応はかなり進んでいる雰囲気を感じる。
- リポジトリはGitHub – eth-lre/multilingual-educational-llm-bias: Data and code for “Multilingual Performance Biases of Large Language Models in Education”
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
- The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks [37.8]
本稿では148カ国の2000以上の多言語(非英語)ベンチマークについて検討する。 英語はこれらのベンチマークで著しく過剰に表現されている。 ほとんどのベンチマークは翻訳よりもオリジナルの言語コンテンツに依存している。
論文 参考訳(メタデータ) (Tue, 22 Apr 2025 01:47:37 GMT) - 多言語ベンチマークに対する調査報告。「Importantly, simply translating English benchmarks proves insufficient for robust evaluation, localized benchmarks (like CMMLU for Chinese) show substantially higher correlation with human judgments (0.68) than translated equivalents (0.47 and 0.49), highlighting the critical need for culturally and linguistically authentic evaluation resources.」というのはそうだろうと思いつつ、数字で示されると納得感がある。
Seedream 3.0 Technical Report
- Seedream 3.0 Technical Report [62.9]
Seedream 3.0は、高性能な中国語と英語のバイリンガル画像生成基盤モデルである。 Seedream 2.0の既存の課題に対処するために、いくつかの技術的改善を開発しています。 Seedream 3.0はネイティブな高解像度の出力(最大2K)を提供し、高画質の画像を生成する。
論文 参考訳(メタデータ) (Wed, 16 Apr 2025 16:23:31 GMT) - ByteDanceによるマルチリンガルな画像生成モデル、サンプル画像から非常に強力なモデルであることが分かる。Text to Image Model Arena | Artificial AnalysisでSoTAを主張(現在はGPT-4oに抜かれている?)
- プロジェクトサイトはDoubao Team
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation
- MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.5]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。 我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文 参考訳(メタデータ) (Thu, 13 Mar 2025 15:59:20 GMT) - 「MMLU-ProX extends the challenging MMLU-Pro benchmark to encompass 13 typologically diverse languages: English (EN), Chinese (ZH), Japanese (JA), Korean (KO), French (FR), German (DE), Spanish (ES), Portuguese (PT), Arabic (AR), Thai (TH), Hindi (HI), Bengali (BN), and Swahili (SW).」、「By carefully translating the same set of questions across all languages, MMLU-ProX facilitates direct comparison of model performance across linguistic boundaries while controlling for question difficulty.」というベンチマーク。多言語で評価可能なベンチマークを使うと言語間差異がよくわかる。
- プロジェクトサイトはMMLU-ProX: A Multilingual Benchmark for Advanced LLM Evaluation
An Expanded Massive Multilingual Dataset for High-Performance Language Technologies
- An Expanded Massive Multilingual Dataset for High-Performance Language Technologies [21.4]
高品質な多言語単言語コーパスと並列コーパスのコレクションであるHPLT v2を提案する。 データのモノリンガル部分は193言語をカバーする8Tトークンを含み、並列データは51言語をカバーする380万の文ペアを含む。
論文 参考訳(メタデータ) (Thu, 13 Mar 2025 11:24:09 GMT) - 「The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages.」という大規模データセットの提案。「We release HPLT v2 under the permissive Creative Commons Zero (CC0) license and provide the code to replicate our pipeline.」とライセンスはCC zero
- プロジェクトサイトはHPLT – High Performance Language Technologies、リポジトリはGitHub – hplt-project/HPLT-textpipes: Step-by-step schematic description of data processing in HPLT
Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment
- Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment [35.2]
提案手法は,暗黙の報奨によって適切に整合した英語モデルからの好みを捉え,反復学習を通じて他言語に伝達する手法である。 2回に分けて微調整したLlama3はウィンレートを平均12.72%改善し、X-AlpacaEvalのリーダーボード上でのトレーニング言語全体の長さ制御ウィンレートを5.97%向上させた。
論文 参考訳(メタデータ) (Thu, 06 Mar 2025 17:33:01 GMT) - 「we propose a novel approach that captures learned preferences from well-aligned English models by implicit rewards and transfers them to other languages through iterative training.」、とのことで英語の選好をマルチリンガルに転送する手法の提案。「Multilingual Responses Generation、Implicit Cross-lingual Rewarding、Preference Transfer Training」の3つからなる
- リポジトリはGitHub – ZNLP/Implicit-Cross-Lingual-Rewarding