The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights

  • The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.4]
    本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。 実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。 その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 14:49:50 GMT)
  • 多言語性能を上げるための2段階のアライメント手法( question alignment and response alignment)の提案。さらに「En-X translation training can implicitly bias LLM to generate non-English chain-of-thought and increase the question-response language consistency.」とのこと。分析や解釈も面白い。
  • リポジトリはGitHub – NJUNLP/QAlign

CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment

  • CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.4]
    英語中心のモデルは、通常他の言語では準最適である。 そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 06:20:50 GMT)
  • 多言語能力を上げるためのInstruction tuningアプローチ。「CrossIn: It comprises cross-lingual instruction tuning datasets, where instruction and output are featured in two different languages」「Trans: It consists of translation pairs for instructions.」を併用。後者の「We hypothesize that if the model concurrently learns these translation tasks, it could facilitate the transfer of knowledge between languages.」は興味深い仮説。評価データも構築している。
  • Mistral等を使って提案手法の効果を検証。
  • リポジトリはGitHub – Lingy12/CrossIn

Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers

  • Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.5]
    本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。 私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
    論文  参考訳(メタデータ)   (Sun, 07 Apr 2024 11:52:44 GMT)
  • マルチリンガルLLMに対するサーベイ。アプローチも結果も様々でありがたいサーベイであり、かつ論文リストがプロジェクトサイトに整理して一覧化されているのもありがたい。
  • プロジェクトサイトはMLLM (multilingual-llm.net)

METAL: Towards Multilingual Meta-Evaluation 

  • METAL: Towards Multilingual Meta-Evaluation [12.9]
    本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。 要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。 GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
    論文  参考訳(メタデータ)   (Tue, 02 Apr 2024 06:14:54 GMT)
  • マルチリンガルなLLM評価フレームワークの提案、GPT-4はやはり優秀。だが「Finally, we analyze human and LLM reasoning and observe that LLMs often provide incorrect justifications for their scores, thus showing that more research is needed to be able to use LLM-based evaluators with confidence in the multilingual setting.」・・・。わりとよく言われていることではある・・・。
  • リポジトリはhadarishav/METAL: Code and data repo for NAACL’24 findings paper “METAL: Towards Multilingual Meta Evaluation” (github.com)

Language Imbalance Can Boost Cross-lingual Generalisation

  • Language Imbalance Can Boost Cross-lingual Generalisation [57.3]
    本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。 学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。 分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
    論文  参考訳(メタデータ)   (Thu, 11 Apr 2024 17:58:05 GMT)
  • 「In both settings, we find that, without vocabulary overlap, our models do not show strong cross-lingual generalisation when trained on a balanced language set.However, when training on an imbalanced mix of languages, we observe increased performance compared to monolingual settings.」という興味深い結果。クローン言語と実際の言語での差異を含めて面白い。
  • リポジトリはantonschafer/xling-imbalance (github.com)

On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons

  • On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons [37.3]
    多言語デコーダを用いた言語モデル(PLM)のニューロンレベルの内部挙動の解析 言語固有のニューロンは、言語間でわずかに重なり(5%)、ユニークであることを示す。 推論中に各モデルにおける全ニューロンの1%未満をタンパし、少数の言語特異的ニューロンとのタンパリングがテキスト生成におけるターゲット言語発生の確率を劇的に変化させることを実証した。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 03:37:22 GMT)
  • PLMにおける多言語性の分析、「The experimental results demonstrate that language-specific neurons mainly exist in the first and last few layers, regardless of the language, model size, and model variants.」というFindingsはLanguage-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models – arXiv最新論文の紹介 (devneko.jp)など他の結果と整合的であるように思える。Controlling Language-specific Neuronsでの「In other words, the desired language could be generated by intentionally igniting target neurons.」は面白い。

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

  • EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
    EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。 自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。 質問は7つの言語ファミリーから11の言語で行われます。
    論文  参考訳(メタデータ)   (Fri, 15 Mar 2024 15:08:39 GMT)
  • MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)+画像キャプション(GPT-4V)を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
  • 日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
  • リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark

Large Language Models are Parallel Multilingual Learners

  • Large Language Models are Parallel Multilingual Learners [50.1]
    本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。 入力を複数の言語に翻訳することで、並列入力(PIM)をLLMに提供し、その理解能力を大幅に向上させる。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 03:33:46 GMT)
  • PIM(コンテキストとして同じ意味のテキストを複数の言語で与える)という新たなICL戦略の提案。特に多言語モデルでは性能向上効果があるとのこと。機械翻訳を通したテキストでも効果ありというのは面白い。
  • 「Considering knowledge learnt from different languages memorized in separate neurons of LLMs, a straightforward explanation for the superiority of PIM is that it leads to the increasing number of activated neurons, utilizing more knowledge during the inference stage.」はなるほどと思いつつ「This finding is similar to the synaptic pruning happening in brains, which prunes less-used neural connections and makes frequently-used neural pathways more powerful and efficient (Huttenlocher et al , 1979; Huttenlocher, 1990).」はほんまかいなと思わなくもない。
  • リポジトリはtakagi97/LLMs-are-parallel-multilingual-learners: The implementation of Large Language Models are Parallel Multilingual Learners. (github.com)

Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

  • Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [122.3]
    大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。 以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
    論文  参考訳(メタデータ)   (Mon, 26 Feb 2024 09:36:05 GMT)
  • LLMの多言語対応が浅い層の比較的少数のニューロンによって実現されているのではないか?という報告。LAPE: Language Activation Probability Entropyという指標を作り、1つか2つの言語にのみ強く反応するニューロンを特定しているよう。
  • mBERTの時代から意外と容易に多言語性が得られていたので納得感のある結果。LoRAなどで多言語性が破壊されないように見えるのも同じ理由なんだろうか。論文にもある通り選択的に多言語特性を残せると面白いと思う。
  • How do Large Language Models Handle Multilingualism? [87.1]
    大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。 LLMの多言語入力処理を記述したフレームワークを提案する。 さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
    論文  参考訳(メタデータ)   (Thu, 29 Feb 2024 02:55:26 GMT)
  • 別チームによる報告だが検証している「we introduce a hypothesis suggesting that LLMs address multilingualism by first translating queries into English, processing them using English with the help of multilingual knowledge, and then translating the responses back into the original language.」は上記に近いように思う。
  • 「Moreover, enhancing the multilingual capabilities of LLMs can be achieved by fine-tuning languagespecific neurons with merely 200 contextual examples.」も衝撃的。