- On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons [37.3]
多言語デコーダを用いた言語モデル(PLM)のニューロンレベルの内部挙動の解析 言語固有のニューロンは、言語間でわずかに重なり(5%)、ユニークであることを示す。 推論中に各モデルにおける全ニューロンの1%未満をタンパし、少数の言語特異的ニューロンとのタンパリングがテキスト生成におけるターゲット言語発生の確率を劇的に変化させることを実証した。
論文 参考訳(メタデータ) (Wed, 03 Apr 2024 03:37:22 GMT) - PLMにおける多言語性の分析、「The experimental results demonstrate that language-specific neurons mainly exist in the first and last few layers, regardless of the language, model size, and model variants.」というFindingsはLanguage-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models – arXiv最新論文の紹介 (devneko.jp)など他の結果と整合的であるように思える。Controlling Language-specific Neuronsでの「In other words, the desired language could be generated by intentionally igniting target neurons.」は面白い。
タグ: Multilingual
EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models
- EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。 自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。 質問は7つの言語ファミリーから11の言語で行われます。
論文 参考訳(メタデータ) (Fri, 15 Mar 2024 15:08:39 GMT) - MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)+画像キャプション(GPT-4V)を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
- 日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
- リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark
Large Language Models are Parallel Multilingual Learners
- Large Language Models are Parallel Multilingual Learners [50.1]
本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。 入力を複数の言語に翻訳することで、並列入力(PIM)をLLMに提供し、その理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 03:33:46 GMT) - PIM(コンテキストとして同じ意味のテキストを複数の言語で与える)という新たなICL戦略の提案。特に多言語モデルでは性能向上効果があるとのこと。機械翻訳を通したテキストでも効果ありというのは面白い。
- 「Considering knowledge learnt from different languages memorized in separate neurons of LLMs, a straightforward explanation for the superiority of PIM is that it leads to the increasing number of activated neurons, utilizing more knowledge during the inference stage.」はなるほどと思いつつ「This finding is similar to the synaptic pruning happening in brains, which prunes less-used neural connections and makes frequently-used neural pathways more powerful and efficient (Huttenlocher et al , 1979; Huttenlocher, 1990).」はほんまかいなと思わなくもない。
- リポジトリはtakagi97/LLMs-are-parallel-multilingual-learners: The implementation of Large Language Models are Parallel Multilingual Learners. (github.com)
Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral
- Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral [23.7]
我々は,中国語能力の向上を図り,さらに事前学習と微調整を取り入れた中国語・ミクストラル・中国語・ミクストラル・インストラクションを提案する。 実験結果から,我々の中国・ミクストラル・中国・ミクストラル・インストラクションは,本来の英語能力を維持しつつ,中国語の理解と生成能力を向上させることができた。
論文 参考訳(メタデータ) (Mon, 4 Mar 2024 09:01:10 GMT) - Mixtralの中国語対応、Llama2ベースの成果を超える性能。
- リポジトリはChinese-Mixtral/README_EN.md at main · ymcui/Chinese-Mixtral (github.com)、weightも公開されているChinese-Mixtral/README_EN.md at main · ymcui/Chinese-Mixtral (github.com)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models
- Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [122.3]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。 以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (Mon, 26 Feb 2024 09:36:05 GMT) - LLMの多言語対応が浅い層の比較的少数のニューロンによって実現されているのではないか?という報告。LAPE: Language Activation Probability Entropyという指標を作り、1つか2つの言語にのみ強く反応するニューロンを特定しているよう。
- mBERTの時代から意外と容易に多言語性が得られていたので納得感のある結果。LoRAなどで多言語性が破壊されないように見えるのも同じ理由なんだろうか。論文にもある通り選択的に多言語特性を残せると面白いと思う。
- How do Large Language Models Handle Multilingualism? [87.1]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。 LLMの多言語入力処理を記述したフレームワークを提案する。 さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (Thu, 29 Feb 2024 02:55:26 GMT) - 別チームによる報告だが検証している「we introduce a hypothesis suggesting that LLMs address multilingualism by first translating queries into English, processing them using English with the help of multilingual knowledge, and then translating the responses back into the original language.」は上記に近いように思う。
- 「Moreover, enhancing the multilingual capabilities of LLMs can be achieved by fine-tuning languagespecific neurons with merely 200 contextual examples.」も衝撃的。
AYA datasetとAYA model
多言語LLMを構築するための取り組み。AYAはトウィ語でシダのことらしい。プロジェクトサイトはAya | Cohere For AI
- Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.8]
既存のデータセットはほとんどが英語で書かれている。 私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。 既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (Fri, 9 Feb 2024 18:51:49 GMT) - リポジトリはCohereForAI/aya_collection · Datasets at Hugging Face
- Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model [33.9]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。 99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。 我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 17:34:13 GMT) - リポジトリはCohereForAI/aya-101 · Hugging Face
Multi-Lingual Text Embeddings
マルチリンガルなテキストの埋め込みについて2つ報告が出ていた。1つ目は高性能と話題のE5、もう1つはBAAIのモデルでベンチマーク上はE5以上の性能のように見える。いずれもオープンなライセンスのようで使いやすそう。
- Multilingual E5 Text Embeddings: A Technical Report [63.5]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。 そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (Thu, 8 Feb 2024 13:47:50 GMT) - 高性能と話題でOpenAIの埋め込みモデルの別の選択肢としても有名な手法のテクニカルレポート
- リポジトリはunilm/e5 at master · microsoft/unilm (github.com)、モデルはintfloat/multilingual-e5-base · Hugging Faceなど
- BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation [28.2]
本稿では,M3-Embeddingと呼ばれる新しい埋め込みモデルを提案する。 100以上の作業言語をサポートすることができるため、多言語および多言語検索タスクにおける最先端のパフォーマンスが新たに向上する。 M3-Embeddingは、短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。
論文 参考訳(メタデータ) (Mon, 5 Feb 2024 17:26:49 GMT) - BAAIによる埋め込みモデル。E5より性能が高いと主張。
- リポジトリはFlagOpen/FlagEmbedding: Dense Retrieval and Retrieval-augmented LLMs (github.com)モデルはBAAI/bge-m3 · Hugging Face
MaLA-500
- MaLA-500: Massive Language Adaptation of Large Language Models [18.0]
MALA-500は、幅広い534言語をカバーするように設計された、新しい大きな言語モデルである。 SIB-200における実験により,MALA-500は,現在最先端のテキスト内学習結果が得られることが示された。
論文 参考訳(メタデータ) (Wed, 24 Jan 2024 08:57:39 GMT) - 534言語をカバーするLLM、データはcisnlp/Glot500: Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages (ACL’23) (github.com)、LLaMA 2 7Bを継続学習するアプローチ。
- モデルはMaLA-LM/mala-500 · Hugging Face
Question Translation Training for Better Multilingual Reasoning
- Question Translation Training for Better Multilingual Reasoning [113.5]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。 典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。 質問のアライメントは、翻訳学習アプローチよりも一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (Mon, 15 Jan 2024 16:39:10 GMT) - 多言語環境でLLMのパフォーマンスを上げるため単純に翻訳データを使うのではなく、Stage I: Question Alignment(質問を英語に翻訳するタスク)、Stage II: Response Alignment(英語または混合の質問回答ペアでのチューニング)の2ステージ構成を提案。「Question alignment stage enables LLM’s proficiency in English to be transferred to nonEnglish tasks.」とあって面白い。
- リポジトリはNJUNLP/QAlign (github.com)
Multilingual Instruction Tuning With Just a Pinch of Multilinguality
- Multilingual Instruction Tuning With Just a Pinch of Multilinguality [33.2]
多くの言語が単言語チューニングから命令追従機能を他の言語に移行していることを示す。 複数の言語において、多言語混合に調整されたモデルが同等または優れた性能を示すことが観察された。 この結果から,多言語命令調整モデルの構築は,ごく少数の多言語命令応答で行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (Wed, 3 Jan 2024 17:48:10 GMT) - LLMにおける多言語対応に関する報告。LLM以前のマルチリンガルなPLMでも同様の指摘はあったが「Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instructionresponses.」は重要な特性だと思う。
- 言語の壁は意外と低いのか、pre trainの重要さが非常に大きいのか、理由が知りたいところ。