YAYI 2

  • YAYI 2: Multilingual Open-Source Large Language Models [53.9]
    我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。 ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
    論文  参考訳(メタデータ)   (Fri, 22 Dec 2023 17:34:47 GMT)
  • 多言語対応かつ高性能なLLM YAYI2の論文。YAYI2 30Bは5 shotのMMLUでScore=80.5と高い。学習データのクレンジングからpre train, SFT, RLHFと構築過程も非常に参考になる。
  • リポジトリはYAYI2/README_EN.md at main · wenge-research/YAYI2 (github.com、コードはOSSのようだがweightは別途ライセンスが定められている点に注意。
  • YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction [21.0]
    ユニバーサル情報抽出(YAYI-UIE)のためのエンドツーエンドのチャット強化指導フレームワークを提案する。 具体的には,対話データと情報抽出データを用いて,情報抽出性能を協調的に向上する。
    論文  参考訳(メタデータ)   (Sun, 24 Dec 2023 21:33:03 GMT)
  • 関連してuniversal information extraction taskへのチューニング手法、
  • リポジトリはYAYI-UIE/README_EN.md at main · wenge-research/YAYI-UIE (github.com)

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

  • GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation [167.6]
    MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
    論文  参考訳(メタデータ)   (Mon, 13 Nov 2023 18:53:37 GMT)
  • スマホのナビゲーションを行うエージェント。GPT-4Vを使ってマルチモーダルに対応。FinetunedなLlama2、PaLM 2と比べても高い性能。
  • リポジトリはGitHub – zzxslp/MM-Navigator 

Multilingual Mathematical Reasoning

  • Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [98.2]
    本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。 翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。 我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
    論文  参考訳(メタデータ)   (Wed, 1 Nov 2023 06:56:14 GMT)
  • 多言語版GSM8KのMGSM8KInstruct、同多言語版SVAMP なMSVAMPの作成と多言語で数学的問題が扱えるMathOctopusの提案。日本語が入っているのがうれしい。  rejection samplingを行うRFTの多言語版、Multilingual Rejection Sampling Fine-tuning (xRFT)が有効とのこと。
  • リポジトリはMathOctopus | Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations

Multilingual Jailbreak Challenges in Large Language Models

  • Multilingual Jailbreak Challenges in Large Language Models [96.7]
    本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。 リスクシナリオとして,意図的でないシナリオと意図的シナリオの2つを考えます。 安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
    論文  参考訳(メタデータ)   (Tue, 10 Oct 2023 09:44:06 GMT)
  • 多言語でのJailbreakと防御法の提案、日本語が入っていないのが悲しい
  • 現実装では多言語プロンプトに対する防御は十分でないという結果に見える。(防御方法はこの論文でも提案されている。)
  • リポジトリはGitHub – DAMO-NLP-SG/multilingual-safety-for-LLMs: Data for “Multilingual Jailbreak Challenges in Large Language Models”

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

  • Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? [20.5]
    大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて素晴らしいパフォーマンスを示している。 現在の評価技術では、適切なベンチマーク、メトリクス、コスト、人間のアノテーションへのアクセスが欠如している。 本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 06:41:58 GMT)
  • LLMがNLPの評価器として多言語設定でうまくいくか評価した論文。「We see that the PA between the annotators and GPT is lowest compared to the PA between the human annotators for Japanese and Czech」(PA: Percentage Agreement )「Our work indicates that LLMbased evaluators need to be used cautiously in the multilingual setting, particularly on languages on which LLMs are known to perform poorly.」とのこと。
  • GPT-4とかだと英語で有効だった手法が日本語でも動く(ように見える)わけだが、正しく動作しているかどうか検証する必要がある、という当然と言えば当然の結果。

The Belebele Benchmark

  • The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [82.6]
    私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。 このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
    論文  参考訳(メタデータ)   (Thu, 31 Aug 2023 17:43:08 GMT)
  • 「multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants.」ということで非常に多言語のMRCデータセット。機械翻訳におけるFLORES-200のような立ち位置で非常に貴重なデータセット
  • 「GPT3.5-TURBO performs the best on the top 20 languages, but after 40-50, its performance falls far behind INFOXLM and XLM-V.」というベンチマーク結果が興味深い。商業システムはある程度ターゲットとなる言語を絞っているよう。
  • リポジトリはGitHub – facebookresearch/belebele: Repo for the Belebele dataset, a massively multilingual reading comprehension dataset.

x-LLaMA

  • Extrapolating Large Language Models to Non-English by Aligning Languages [56.9]
    我々は,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習された大規模言語モデル(LLM)を強化することを提案する。 実験の結果、x-LLaMAモデルは6つの非英語言語で平均42.50%上回った。
    論文  参考訳(メタデータ)   (Wed, 9 Aug 2023 13:32:06 GMT)
  • 一般的に英語に偏っているマルチリンガルなLLMを英語以外の言語に対応させていく手法の提案。「we perform instruction-tuning on LLM with mixed cross-lingual general task instruction data and translation task instruction data.」で作ったx-LLaMA-7Bが Chinese-Alpaca-7Bと同等というのは興味深い結果。
  • 日英バイリンガル大規模言語モデルではrinna/bilingual-gpt-neox-4b · Hugging Facestabilityai/japanese-stablelm-base-alpha-7b · Hugging Faceが出ているが、Llama2をこのような手法で強化したモデルとどちらが優れているかは気になるところ。
  • リポジトリはOwenNJU/x-LLM · GitHub

PolyLM

  • PolyLM: An Open Source Polyglot Large Language Model [57.6]
    我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。 その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。 さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 12 Jul 2023 09:00:37 GMT)
  • オープンソースの大規模LLM、日本語にも対応しているようで期待大
  • 「POLYLM was trained using Megatron-LM 3 on a cluster of 32 A100 GPU (8×80G) servers. We apply tensor model parallelism within a single node, setting tensor-model-parallel-size as 8. When training a 13B-parameter model, our code processes around 1170 tokens/sec/GPU, thus training over our dataset containing 640B tokens takes approximately 29 days.」 など学習に関する情報もとても有益。
  • リポジトリはPolyLM-文本生成模型-多语言-13B · 模型库 (modelscope.cn), HuggingFace DAMO-NLP-MT/polylm-13b · Hugging Face

商用利用可能なLLaMA v2が出るという話もあり、オープンソースなLLMも盛り上がっている。Meta to release open-source commercial AI model to compete with OpenAI and Google | ZDNET

Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning

  • Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [83.3]
    英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。 並列かつ大規模な多言語会話データセットであるXSGDを紹介する。 我々は、アライメントプロンプトを学習するための効率的なプロンプトチューニングベースの手法を開発した。
    論文  参考訳(メタデータ)   (Sat, 24 Jun 2023 06:18:33 GMT)
  •  English-only Schema-Guided Dialogue (SGD)を翻訳して作成した大規模な多言語対話データセットXSGDの紹介とプロンプトチューニング方法の提案
  • データセットはgoogle driveからダウンロードできるとのこと

M3Exam 

  • M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [30.4]
    M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。 我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
    論文  参考訳(メタデータ)   (Thu, 8 Jun 2023 13:21:29 GMT)
  • マルチリンガル、マルチモーダルなLLM評価用のベンチマーク。残念ながら日本語は入っていない。このベンチマークではGPT-4 > ChatGPT > Calude > Vicuna > BLOOMとのこと。前提条件などにもよるのだろうが参考になる。
  • リポジトリはGitHub – DAMO-NLP-SG/M3Exam: Data and code for paper “M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models”