Multilingual – ページ 5 – arXiv最新論文の紹介

Large Language Models are Parallel Multilingual Learners

Large Language Models are Parallel Multilingual Learners [50.1]
本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。入力を複数の言語に翻訳することで、並列入力(PIM)をLLMに提供し、その理解能力を大幅に向上させる。
論文参考訳（メタデータ） (Thu, 14 Mar 2024 03:33:46 GMT)
PIM（コンテキストとして同じ意味のテキストを複数の言語で与える）という新たなICL戦略の提案。特に多言語モデルでは性能向上効果があるとのこと。機械翻訳を通したテキストでも効果ありというのは面白い。
「Considering knowledge learnt from different languages memorized in separate neurons of LLMs, a straightforward explanation for the superiority of PIM is that it leads to the increasing number of activated neurons, utilizing more knowledge during the inference stage.」はなるほどと思いつつ「This finding is similar to the synaptic pruning happening in brains, which prunes less-used neural connections and makes frequently-used neural pathways more powerful and efficient (Huttenlocher et al , 1979; Huttenlocher, 1990).」はほんまかいなと思わなくもない。
リポジトリはtakagi97/LLMs-are-parallel-multilingual-learners: The implementation of Large Language Models are Parallel Multilingual Learners. (github.com)

Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral

Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral [23.7]
我々は,中国語能力の向上を図り,さらに事前学習と微調整を取り入れた中国語・ミクストラル・中国語・ミクストラル・インストラクションを提案する。実験結果から,我々の中国・ミクストラル・中国・ミクストラル・インストラクションは,本来の英語能力を維持しつつ,中国語の理解と生成能力を向上させることができた。
論文参考訳（メタデータ） (Mon, 4 Mar 2024 09:01:10 GMT)
Mixtralの中国語対応、Llama2ベースの成果を超える性能。
リポジトリはChinese-Mixtral/README_EN.md at main · ymcui/Chinese-Mixtral (github.com)、weightも公開されているChinese-Mixtral/README_EN.md at main · ymcui/Chinese-Mixtral (github.com)

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [122.3]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文参考訳（メタデータ） (Mon, 26 Feb 2024 09:36:05 GMT)
LLMの多言語対応が浅い層の比較的少数のニューロンによって実現されているのではないか？という報告。LAPE: Language Activation Probability Entropyという指標を作り、1つか2つの言語にのみ強く反応するニューロンを特定しているよう。
mBERTの時代から意外と容易に多言語性が得られていたので納得感のある結果。LoRAなどで多言語性が破壊されないように見えるのも同じ理由なんだろうか。論文にもある通り選択的に多言語特性を残せると面白いと思う。

How do Large Language Models Handle Multilingualism? [87.1]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。 LLMの多言語入力処理を記述したフレームワークを提案する。さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文参考訳（メタデータ） (Thu, 29 Feb 2024 02:55:26 GMT)
別チームによる報告だが検証している「we introduce a hypothesis suggesting that LLMs address multilingualism by first translating queries into English, processing them using English with the help of multilingual knowledge, and then translating the responses back into the original language.」は上記に近いように思う。
「Moreover, enhancing the multilingual capabilities of LLMs can be achieved by fine-tuning languagespecific neurons with merely 200 contextual examples.」も衝撃的。

AYA datasetとAYA model

多言語LLMを構築するための取り組み。AYAはトウィ語でシダのことらしい。プロジェクトサイトはAya | Cohere For AI

Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.8]
既存のデータセットはほとんどが英語で書かれている。私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文参考訳（メタデータ） (Fri, 9 Feb 2024 18:51:49 GMT)
リポジトリはCohereForAI/aya_collection · Datasets at Hugging Face

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model [33.9]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。 99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 17:34:13 GMT)
リポジトリはCohereForAI/aya-101 · Hugging Face

Multi-Lingual Text Embeddings

マルチリンガルなテキストの埋め込みについて2つ報告が出ていた。1つ目は高性能と話題のE5、もう1つはBAAIのモデルでベンチマーク上はE5以上の性能のように見える。いずれもオープンなライセンスのようで使いやすそう。

Multilingual E5 Text Embeddings: A Technical Report [63.5]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文参考訳（メタデータ） (Thu, 8 Feb 2024 13:47:50 GMT)
高性能と話題でOpenAIの埋め込みモデルの別の選択肢としても有名な手法のテクニカルレポート
リポジトリはunilm/e5 at master · microsoft/unilm (github.com)、モデルはintfloat/multilingual-e5-base · Hugging Faceなど

BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation [28.2]
本稿では,M3-Embeddingと呼ばれる新しい埋め込みモデルを提案する。 100以上の作業言語をサポートすることができるため、多言語および多言語検索タスクにおける最先端のパフォーマンスが新たに向上する。 M3-Embeddingは、短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。
論文参考訳（メタデータ） (Mon, 5 Feb 2024 17:26:49 GMT)
BAAIによる埋め込みモデル。E5より性能が高いと主張。
リポジトリはFlagOpen/FlagEmbedding: Dense Retrieval and Retrieval-augmented LLMs (github.com)モデルはBAAI/bge-m3 · Hugging Face

MaLA-500

MaLA-500: Massive Language Adaptation of Large Language Models [18.0]
MALA-500は、幅広い534言語をカバーするように設計された、新しい大きな言語モデルである。 SIB-200における実験により,MALA-500は,現在最先端のテキスト内学習結果が得られることが示された。
論文参考訳（メタデータ） (Wed, 24 Jan 2024 08:57:39 GMT)
534言語をカバーするLLM、データはcisnlp/Glot500: Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages (ACL’23) (github.com)、LLaMA 2 7Bを継続学習するアプローチ。
モデルはMaLA-LM/mala-500 · Hugging Face

Question Translation Training for Better Multilingual Reasoning

Question Translation Training for Better Multilingual Reasoning [113.5]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。質問のアライメントは、翻訳学習アプローチよりも一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (Mon, 15 Jan 2024 16:39:10 GMT)
多言語環境でLLMのパフォーマンスを上げるため単純に翻訳データを使うのではなく、Stage I: Question Alignment（質問を英語に翻訳するタスク）、Stage II: Response Alignment（英語または混合の質問回答ペアでのチューニング）の２ステージ構成を提案。「Question alignment stage enables LLM’s proficiency in English to be transferred to nonEnglish tasks.」とあって面白い。
リポジトリはNJUNLP/QAlign (github.com)

Multilingual Instruction Tuning With Just a Pinch of Multilinguality

Multilingual Instruction Tuning With Just a Pinch of Multilinguality [33.2]
多くの言語が単言語チューニングから命令追従機能を他の言語に移行していることを示す。複数の言語において、多言語混合に調整されたモデルが同等または優れた性能を示すことが観察された。この結果から,多言語命令調整モデルの構築は,ごく少数の多言語命令応答で行うことが可能であることが示唆された。
論文参考訳（メタデータ） (Wed, 3 Jan 2024 17:48:10 GMT)
LLMにおける多言語対応に関する報告。LLM以前のマルチリンガルなPLMでも同様の指摘はあったが「Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instructionresponses.」は重要な特性だと思う。
言語の壁は意外と低いのか、pre trainの重要さが非常に大きいのか、理由が知りたいところ。

ReMaKE: Retrieval-augmented Multilingual Knowledge Editor

Retrieval-augmented Multilingual Knowledge Editing [81.7]
LLM(Large Language Models)で表される知識は、しばしば誤りであり、時間とともに時代遅れになる可能性がある。知識編集(KE)は、新しい知識を注入するための効果的で経済的な代替手段として発展してきた。本稿では,LLMの新たな知識を更新するためにRetrieval-augmented Multilingual Knowledge Editor (ReMaKE)を提案する。
論文参考訳（メタデータ） (Wed, 20 Dec 2023 14:08:58 GMT)
マルチリンガルな知識編集手法の提案
リポジトリはGitHub – Vicky-Wil/ReMaKE、GitHub – zjunlp/EasyEdit: An Easy-to-use Knowledge Editing Framework for LLMs.を内部的に利用しているよう。

NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation

NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation [92.5]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 17:18:04 GMT)
RAGにおける頑健性のマルチリンガルなベンチマーク。 hallucination rateとerror rateがメトリクス。GPT-4のbase lineがあるが「GPT-4 achieves a high 33.2% hallucination rate on the non-relevant subset and 14.9% error rate on the relevant NoMIRACL split, highlighting that GPT-4 finds it challenging to dismiss non-relevant passages over relevant passages in first-stage retrieved information.」と十分とは言えなさそうな結果。日本語はhallucination rateが高くerror rateが低い結果となっている。
リポジトリはproject-miracl/nomiracl: A multilingual dataset to evaluate LLM robustness in RAG setup against first-stage retrieval errors on 18 languages. (github.com)

2025年12月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31