Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

  • Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [122.3]
    大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。 以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
    論文  参考訳(メタデータ)   (Mon, 26 Feb 2024 09:36:05 GMT)
  • LLMの多言語対応が浅い層の比較的少数のニューロンによって実現されているのではないか?という報告。LAPE: Language Activation Probability Entropyという指標を作り、1つか2つの言語にのみ強く反応するニューロンを特定しているよう。
  • mBERTの時代から意外と容易に多言語性が得られていたので納得感のある結果。LoRAなどで多言語性が破壊されないように見えるのも同じ理由なんだろうか。論文にもある通り選択的に多言語特性を残せると面白いと思う。
  • How do Large Language Models Handle Multilingualism? [87.1]
    大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。 LLMの多言語入力処理を記述したフレームワークを提案する。 さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
    論文  参考訳(メタデータ)   (Thu, 29 Feb 2024 02:55:26 GMT)
  • 別チームによる報告だが検証している「we introduce a hypothesis suggesting that LLMs address multilingualism by first translating queries into English, processing them using English with the help of multilingual knowledge, and then translating the responses back into the original language.」は上記に近いように思う。
  • 「Moreover, enhancing the multilingual capabilities of LLMs can be achieved by fine-tuning languagespecific neurons with merely 200 contextual examples.」も衝撃的。

AYA datasetとAYA model

多言語LLMを構築するための取り組み。AYAはトウィ語でシダのことらしい。プロジェクトサイトはAya | Cohere For AI

  • Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.8]
    既存のデータセットはほとんどが英語で書かれている。 私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。 既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
    論文  参考訳(メタデータ)   (Fri, 9 Feb 2024 18:51:49 GMT)
  • リポジトリはCohereForAI/aya_collection · Datasets at Hugging Face
  • Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model [33.9]
    Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。 99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。 我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 17:34:13 GMT)
  • リポジトリはCohereForAI/aya-101 · Hugging Face

Multi-Lingual Text Embeddings

マルチリンガルなテキストの埋め込みについて2つ報告が出ていた。1つ目は高性能と話題のE5、もう1つはBAAIのモデルでベンチマーク上はE5以上の性能のように見える。いずれもオープンなライセンスのようで使いやすそう。

  • Multilingual E5 Text Embeddings: A Technical Report [63.5]
    異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。 そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
    論文  参考訳(メタデータ)   (Thu, 8 Feb 2024 13:47:50 GMT)
  • 高性能と話題でOpenAIの埋め込みモデルの別の選択肢としても有名な手法のテクニカルレポート
  • リポジトリはunilm/e5 at master · microsoft/unilm (github.com)、モデルはintfloat/multilingual-e5-base · Hugging Faceなど
  • BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation [28.2]
    本稿では,M3-Embeddingと呼ばれる新しい埋め込みモデルを提案する。 100以上の作業言語をサポートすることができるため、多言語および多言語検索タスクにおける最先端のパフォーマンスが新たに向上する。 M3-Embeddingは、短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。
    論文  参考訳(メタデータ)   (Mon, 5 Feb 2024 17:26:49 GMT)
  • BAAIによる埋め込みモデル。E5より性能が高いと主張。
  • リポジトリはFlagOpen/FlagEmbedding: Dense Retrieval and Retrieval-augmented LLMs (github.com)モデルはBAAI/bge-m3 · Hugging Face

MaLA-500

Question Translation Training for Better Multilingual Reasoning

  • Question Translation Training for Better Multilingual Reasoning [113.5]
    大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。 典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。 質問のアライメントは、翻訳学習アプローチよりも一貫した改善をもたらすことを示す。
    論文  参考訳(メタデータ)   (Mon, 15 Jan 2024 16:39:10 GMT)
  • 多言語環境でLLMのパフォーマンスを上げるため単純に翻訳データを使うのではなく、Stage I: Question Alignment(質問を英語に翻訳するタスク)、Stage II: Response Alignment(英語または混合の質問回答ペアでのチューニング)の2ステージ構成を提案。「Question alignment stage enables LLM’s proficiency in English to be transferred to nonEnglish tasks.」とあって面白い。
  • リポジトリはNJUNLP/QAlign (github.com)

Multilingual Instruction Tuning With Just a Pinch of Multilinguality

  • Multilingual Instruction Tuning With Just a Pinch of Multilinguality [33.2]
    多くの言語が単言語チューニングから命令追従機能を他の言語に移行していることを示す。 複数の言語において、多言語混合に調整されたモデルが同等または優れた性能を示すことが観察された。 この結果から,多言語命令調整モデルの構築は,ごく少数の多言語命令応答で行うことが可能であることが示唆された。
    論文  参考訳(メタデータ)   (Wed, 3 Jan 2024 17:48:10 GMT)
  • LLMにおける多言語対応に関する報告。LLM以前のマルチリンガルなPLMでも同様の指摘はあったが「Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instructionresponses.」は重要な特性だと思う。
  • 言語の壁は意外と低いのか、pre trainの重要さが非常に大きいのか、理由が知りたいところ。

ReMaKE: Retrieval-augmented Multilingual Knowledge Editor

  • Retrieval-augmented Multilingual Knowledge Editing [81.7]
    LLM(Large Language Models)で表される知識は、しばしば誤りであり、時間とともに時代遅れになる可能性がある。 知識編集(KE)は、新しい知識を注入するための効果的で経済的な代替手段として発展してきた。 本稿では,LLMの新たな知識を更新するためにRetrieval-augmented Multilingual Knowledge Editor (ReMaKE)を提案する。
    論文  参考訳(メタデータ)   (Wed, 20 Dec 2023 14:08:58 GMT)
  • マルチリンガルな知識編集手法の提案
  • リポジトリはGitHub – Vicky-Wil/ReMaKEGitHub – zjunlp/EasyEdit: An Easy-to-use Knowledge Editing Framework for LLMs.を内部的に利用しているよう。

NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation

  • NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation [92.5]
    Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。 評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 17:18:04 GMT)
  • RAGにおける頑健性のマルチリンガルなベンチマーク。 hallucination rateとerror rateがメトリクス。GPT-4のbase lineがあるが「GPT-4 achieves a high 33.2% hallucination rate on the non-relevant subset and 14.9% error rate on the relevant NoMIRACL split, highlighting that GPT-4 finds it challenging to dismiss non-relevant passages over relevant passages in first-stage retrieved information.」と十分とは言えなさそうな結果。日本語はhallucination rateが高くerror rateが低い結果となっている。
  • リポジトリはproject-miracl/nomiracl: A multilingual dataset to evaluate LLM robustness in RAG setup against first-stage retrieval errors on 18 languages. (github.com)

YAYI 2

  • YAYI 2: Multilingual Open-Source Large Language Models [53.9]
    我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。 ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
    論文  参考訳(メタデータ)   (Fri, 22 Dec 2023 17:34:47 GMT)
  • 多言語対応かつ高性能なLLM YAYI2の論文。YAYI2 30Bは5 shotのMMLUでScore=80.5と高い。学習データのクレンジングからpre train, SFT, RLHFと構築過程も非常に参考になる。
  • リポジトリはYAYI2/README_EN.md at main · wenge-research/YAYI2 (github.com、コードはOSSのようだがweightは別途ライセンスが定められている点に注意。
  • YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction [21.0]
    ユニバーサル情報抽出(YAYI-UIE)のためのエンドツーエンドのチャット強化指導フレームワークを提案する。 具体的には,対話データと情報抽出データを用いて,情報抽出性能を協調的に向上する。
    論文  参考訳(メタデータ)   (Sun, 24 Dec 2023 21:33:03 GMT)
  • 関連してuniversal information extraction taskへのチューニング手法、
  • リポジトリはYAYI-UIE/README_EN.md at main · wenge-research/YAYI-UIE (github.com)

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

  • GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation [167.6]
    MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
    論文  参考訳(メタデータ)   (Mon, 13 Nov 2023 18:53:37 GMT)
  • スマホのナビゲーションを行うエージェント。GPT-4Vを使ってマルチモーダルに対応。FinetunedなLlama2、PaLM 2と比べても高い性能。
  • リポジトリはGitHub – zzxslp/MM-Navigator