Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models

  • Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [105.0]
    我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。 我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。 実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 11:23:18 GMT)
  • 「Our key idea is to decompose and extract language-agnostic ability-related weights from LLMs, and transfer them across different languages by simple addition and subtraction operations without training.」という多言語能力の抽出とそのモデルマージ手法、MEAT: Multi-lingual Ability Extraction and Transfer approachを提案。「Our approach MAET achieves better performance than the competitive baseline methods (e g , continual pre-training and model merging with task vector) in multi-lingual complex reasoning tasks, including mathematical reasoning tasks and scientific reasoning tasks.」とのこと。
  • リポジトリはhttps://github.com/RUCAIBox/MAET

Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis

  • Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis [19.4]
    大規模言語モデル(LLM)の探索技術は主に英語に焦点を合わせており、世界の言語の大部分を見下ろしている。 複数のオープンソースのLCMモデルで実験を行い、探索精度、層間の傾向、および複数の言語に対する探索ベクトル間の類似性を解析した。
    論文  参考訳(メタデータ)   (Sun, 22 Sep 2024 14:14:05 GMT)
  • 多言語での動作解析、「(1) a consistent performance gap between high-resource and lowresource languages, with high-resource languages achieving significantly higher probing accuracy; (2) divergent layer-wise accuracy trends, where high-resource languages show substantial improvement in deeper layers similar to English; and (3) higher representational similarities among high-resource languages, with low-resource languages demonstrating lower similarities both among themselves and with high-resource languages.」とのこと
  • Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?  – arXiv最新論文の紹介 (devneko.jp)でも思ったが、この手の動作解析はとても面白い。

EMMA-500, EuroLLM

マルチリンガルさを特徴とするLLMの開発も行われている。

  • EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.5]
    EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。 本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
    論文  参考訳(メタデータ)   (Thu, 26 Sep 2024 14:40:45 GMT)
  •  MaLA Corpus (It contains 939 languages, 546 of which have more than 100k tokens and are used for training our EMMA-500 model, and 74 billion (B) whitespace delimited tokens in total.)とそれを活用したLlama 2-basedなLLM EMMA-500、240言語を対象としたベンチマークPolyWrite の提案。
  • リポジトリはMaLA-LM (MaLA-LM) (huggingface.co)
  • EuroLLM: Multilingual Language Models for Europe [76.9]
    オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。 これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。 マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 16:51:36 GMT)
  • 「EuroLLM project with the goal of creating a suite of LLMs capable of understanding and generating text in all European Union languages (Bulgarian, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hungarian, Irish, Italian, Latvian, Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, Slovenian, Spanish, and Swedish) as well as some additional relevant languages (Arabic, Catalan, Chinese, Galician, Hindi, Japanese, Korean, Norwegian, Russian, Turkish, and Ukrainian).」というLLM構築プロジェクトの紹介。規模は小さいものの機械翻訳での性能は悪くなさそう?
  • リポジトリはEuroLLM – a utter-project Collection (huggingface.co)

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? 

  • Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? [40.5]
    我々は、英語中心のLLMが、その強い性能にもかかわらず、それぞれの支配言語に「思考」があるかどうかを考察する。 実験の結果,Llama2は内在言語として英語のみに依存しているのに対し,日本語固有のスワロー語とLLM-jpは日本語と英語の両方を使用し,二重内在言語を呈していることがわかった。 任意の対象言語に対して、モデルは最も密接に関連する潜在言語を優先的に活性化する。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 13:05:41 GMT)
  • Llama2、その日本語強化(日本語を用いた継続学習)バージョンであるSwallow、日本語・英語のバランスをとったコーパスで構築されたLLM-jpにおける多言語動作の比較。
  • 3モデルの挙動の違い、文化的側面がある新学期に関する問いの違いが面白い
  • 抽象度が進んだ数学や論理処理だと動作はどうなるんだろう?centricな言語が中心になるとして継続学習モデルだと日本語なんやろうか。

Speech-MASSIVE

sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting 

  • sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting [27.1]
    本稿では,多言語合成指導調律データセット sPhinX を作成するための新しいレシピを提案する。 SPhinXは、命令応答対を英語から50言語に選択的に翻訳することで作成される。 Phi-3-Small と Mistral-7B の2つの最先端モデルを微調整するために sPhinX の有効性を検証した。
    論文  参考訳(メタデータ)   (Sat, 13 Jul 2024 13:03:45 GMT)
  • 「To mitigate this issue, we prompt GPT-4 to selectively translate the instructions, so that the tasks are translated into the appropriate language without changing the semantic meaning.」とLLMを用いた機械翻訳を有効に使った多言語fine tuning。
  • 「We devise LAnguage-Specific N-shot Guided Instruction fine-tuning (LANG) strategy for enhancing the multilingual capabilities of LLMs」を含め有効だとは思うのだが現時点ではライセンス上使いにくい・・・(ライセンス的にOKなNemotronだと現実的なのか気になるところ)

BMIKE-53

  • BMIKE-53: Investigating Cross-Lingual Knowledge Editing with In-Context Learning [43.1]
    知識編集(KE)は、大規模言語モデルの知識を更新するための有効なソリューションとして登場した。 3種類のKEタスクタイプにわたる53の多言語における言語間KE評価のためのBMIKE-53ベンチマークを提案する。 本評価では,信頼性,汎用性,局所性,可搬性の観点から,言語間知識伝達に着目した。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 17:48:56 GMT)
  • マルチリンガルな知識編集ベンチマークと、Multilingual In-context Knowledge Editing (MIKE) 手法の提案
  • リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions 

  • X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions [43.9]
    大規模な言語モデルは、英語のような高リソース言語ではうまく反応するが、低リソース言語では苦労する。 そこで本研究では,低リソース言語における英語の命令と応答を併用した言語間命令を新たに構築する手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 30 May 2024 06:45:23 GMT)
  • 下記3段階(リポジトリより)で低リソースな言語用にcross-lingual instructions datasetを作る手法の提案。
    • X-Instruction Generation: Language models learn to generate cross-lingual instructions for multilingual texts using seed data.
    • X-Instruction Refinement: Language models iteratively label and refine cross-lingual instruction samples.
    • X-Instruction Diversification: The final instruction data are sampled from different clusters of embedding from the English instruction to increase the diversity.
  • リポジトリはGitHub – ZNLP/X-Instruction: Official code and data for ACL-2024 paper “X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions”

A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers

  • A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.3]
    LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。 本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
    論文  参考訳(メタデータ)   (Fri, 17 May 2024 17:47:39 GMT)
  • LLMの多言語対応に関するサーベイ。
  • リポジトリも参考になる GitHub – kaiyuhwang/MLLM-Survey: The paper list of multilingual pre-trained models (Continual Updated).

Why Not Transform Chat Large Language Models to Non-English?

  • Why Not Transform Chat Large Language Models to Non-English? [57.2]
    非英語データの不足は、非英語大言語モデル(LLM)の開発を制限する TransLLMは、転送問題を変換チェーン・オブ・シント(translation chain of-of- Thought)でいくつかの一般的なサブタスクに分割する。 本手法は,シングルターンデータのみを用いて,マルチターンベンチマークMT-benchにおいて,強いベースラインとChatGPTより優れる。
    論文  参考訳(メタデータ)   (Wed, 22 May 2024 18:53:25 GMT)
  • LLMを他の言語に対応させる手法の提案。Target Language Pre-Training → Translation Pre-Training → Transfer Fine-Tuningという流れで翻訳をキーとしている。