Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis

  • Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis [19.4]
    大規模言語モデル(LLM)の探索技術は主に英語に焦点を合わせており、世界の言語の大部分を見下ろしている。 複数のオープンソースのLCMモデルで実験を行い、探索精度、層間の傾向、および複数の言語に対する探索ベクトル間の類似性を解析した。
    論文  参考訳(メタデータ)   (Sun, 22 Sep 2024 14:14:05 GMT)
  • 多言語での動作解析、「(1) a consistent performance gap between high-resource and lowresource languages, with high-resource languages achieving significantly higher probing accuracy; (2) divergent layer-wise accuracy trends, where high-resource languages show substantial improvement in deeper layers similar to English; and (3) higher representational similarities among high-resource languages, with low-resource languages demonstrating lower similarities both among themselves and with high-resource languages.」とのこと
  • Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?  – arXiv最新論文の紹介 (devneko.jp)でも思ったが、この手の動作解析はとても面白い。

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method 

  • Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.6]
    本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。 我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
    論文  参考訳(メタデータ)   (Mon, 23 Sep 2024 07:55:35 GMT)
  • 事前学習に何が使われたかを検知するタスクpretraining data detectionに関する手法DC-PDD およびベンチマークの提案。「The pretraining data detection problem can be viewed as an instance of the membership inference attack (MIA) task (Shokri et al , 2017), where the primary objective is to determine if a particular text was part of a target LLM’s training corpus.」
  • DC-PDD computes the divergence between the token probability distribution and the token frequency distribution for detection.とのこと。
  • リポジトリはGitHub – zhang-wei-chao/DC-PDD

Llama3.2, Molmo, EMOVA

先週はマルチモーダルで公開モデルであるLLMの話題が多かった。Llama 3.2はLlamaのアップデートであり90BでGPT-4o miniに匹敵、Molmoは72BでGPT-4oに競合するとのこと。商用モデルに公開モデルが追いつきつつある状況で今後が非常に楽しみである。

公開モデルではないようだが、複数のモデルを組み合わせたEMOVAはGemini Pro 1.5やGPT-4V以上、GPT-4oのスコアの95%以上を達成と主張している。

  • Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.2]
    Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。 私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。 近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
    論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 17:59:51 GMT)
  • プロジェクトサイトはmolmo.allenai.org/blog、「The best-inclass 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation.」。PixMo (Pixels for Molmo)というデータセットを構築、その品質が性能向上に寄与しているとのこと。
  • デモはMolmo by Ai2 (allenai.org)、リポジトリはMolmo – a allenai Collection (huggingface.co)、Apache-2のOSSであることも凄い。
  • EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [150.9]
    GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。 本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
    論文  参考訳(メタデータ)   (Thu, 26 Sep 2024 16:44:02 GMT)
  • マルチモーダルなモデル、「EMOVA exceeds both GPT-4V and Gemini Pro 1.5 significantly on 10 out of 14 benchmarks, while for GPT-4o, EMOVA outperforms on both SEEDBench-Image and OCRBench, reaching over 95% of GPT-4o’s performance on ALL evaluated benchmarks except RealWorldQA.」とのこと。LLaMA-3.1-8B +InternViT-6B+ Speechモデル(既存アーキテクチャをベースに著者らがpre train)なアーキテクチャ。
  • プロジェクトサイトはEMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion (emova-ollm.github.io)

EMMA-500, EuroLLM

マルチリンガルさを特徴とするLLMの開発も行われている。

  • EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.5]
    EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。 本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
    論文  参考訳(メタデータ)   (Thu, 26 Sep 2024 14:40:45 GMT)
  •  MaLA Corpus (It contains 939 languages, 546 of which have more than 100k tokens and are used for training our EMMA-500 model, and 74 billion (B) whitespace delimited tokens in total.)とそれを活用したLlama 2-basedなLLM EMMA-500、240言語を対象としたベンチマークPolyWrite の提案。
  • リポジトリはMaLA-LM (MaLA-LM) (huggingface.co)
  • EuroLLM: Multilingual Language Models for Europe [76.9]
    オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。 これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。 マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 16:51:36 GMT)
  • 「EuroLLM project with the goal of creating a suite of LLMs capable of understanding and generating text in all European Union languages (Bulgarian, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hungarian, Irish, Italian, Latvian, Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, Slovenian, Spanish, and Swedish) as well as some additional relevant languages (Arabic, Catalan, Chinese, Galician, Hindi, Japanese, Korean, Norwegian, Russian, Turkish, and Ukrainian).」というLLM構築プロジェクトの紹介。規模は小さいものの機械翻訳での性能は悪くなさそう?
  • リポジトリはEuroLLM – a utter-project Collection (huggingface.co)

GPT-4 as a Homework Tutor can Improve Student Engagement and Learning Outcomes

  • GPT-4 as a Homework Tutor can Improve Student Engagement and Learning Outcomes [80.6]
    我々は,中学生が第二言語として英語を学習するための対話型宿題セッションを,GPT-4で実施できるプロンプト戦略を開発した。 従来の宿題を GPT-4 の宿題に置き換え,4つの高校生の授業でランダム化比較試験(RCT)を行った。 学習結果の大幅な改善,特に文法の増大,学生のエンゲージメントについて検討した。
    論文  参考訳(メタデータ)   (Tue, 24 Sep 2024 11:22:55 GMT)
  • GPT-4を用いて宿題をサポートすることの効果をRCTで確認。「We observed significant improvements in learning outcomes, specifically a greater gain in grammar, and student engagement.」、「we do not find evidence of bias towards stronger students or harmful hallucinations.」とのこと。

TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning 

  • TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.1]
    現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。 LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。 TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 06:19:59 GMT)
  • 表形式を扱うためのフレームワーク、「TART consists of a table formatter for accurate data representation, a tool maker for creating specialized tools, and an explanation generator maintaining interpretable explanations.」とのこと。ベンチマークも考案しており、効果を確認。
  • リポジトリはGitHub – XinyuanLu00/TART: This is the repository for TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning

A Controlled Study on Long Context Extension and Generalization in LLMs

  • A Controlled Study on Long Context Extension and Generalization in LLMs [85.5]
    広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。 長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。 我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 17:53:17 GMT)
  • 長文の取り扱いに関する手法の評価、「Our study underscores the role of perplexity as a crucial, performance indicator at length and highlights the trade-offs inherent in different attention mechanisms.」
  • リポジトリはGitHub – Leooyii/LCEG: Long Context Extension and Generalization in LLMs

A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

  • A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B [11.8]
    本稿では、7Bから405Bのモデルにおける命令調整型LLMの性能を評価する。 我々は6つのタスクタイプ(常識Q&A、知識と言語理解、指示追従、幻覚検出、数学、対話)のパフォーマンスを評価する。
    論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 10:31:37 GMT)
  • 量子化の影響を分析した論文、「We found that quantized LLMs generally outperformed smaller models in most tasks, except for hallucination detection and instruction-following.」と結論。後半はちょっと驚き。

Qwen 2.5, Qwen 2 VL, GRIN-MoE, Pixtral

様々な研究機関がLLMを構築している。先週のニュースとしては高性能なLLM Qwen 2.5、MoE構成で高効率なGRIN-MoE、マルチモーダル拡張のQwen 2 VL、Pixtralに注目。

ライセンスは様々であることに注意が必要だが、モデル自体は公開されている。商用API以外に選択肢が広がっている。また、それぞれ様々な狙いを持ったモデルとなっていて正直評価を行うことも簡単ではない。自分がやりたいことにフィットするベースモデル、活用方法をサジェストするAIが欲しい今日この頃。

モデル構築、fine tuningの観点でも多くの情報が公開されておりとても興味深い。

  • Qwen2.5-Coder Technical Report [100.7]
    先代のCodeQwen1.5から大幅にアップグレードされたQwen2.5-Coderシリーズを紹介します。 コード固有のモデルとして、Qwen2.5-CoderはQwen2.5アーキテクチャに基づいて構築され、5.5兆以上のトークンからなる巨大なコーパスで事前訓練されている。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 17:57:57 GMT)
  • 「To ensure the quality of the pre-training data, we have curated a dataset by collecting public code data and extracting high-quality code-related content from web texts, while filtering out low-quality data using advanced classifiers.
    」とフィルタリングの重要性を強調。データ合成にも触れられているがMATHと異なりリアルデータが豊富にあるから?
  • Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.5]
    Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。 Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 16:45:37 GMT)
  • 「In this report, we introduce Qwen2.5-Math, which features several key technical highlights: (1) extensive use of synthesized mathematical data from Qwen2-Math during the pre-training phase, (2) iterative generation of fine-tuning data and reinforcement training guided by the reward model during the post-training and inference phase and (3) support for bilingual (English and Chinese) queries, along with chain-of-thought and tool-integrated reasoning capabilities.」と合成データとself improvement的な動きの効果が興味深い
  • Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution [82.4]
    本稿では,従来のQwen-VLモデルのアップグレードであるQwen2-VLシリーズを紹介する。 Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに処理可能にする、Naive Dynamic Resolutionメカニズムが導入されている。 また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 17:59:32 GMT)
  • 「Qwen2-VL series introduces naive dynamic resolution and multimodal rotary position embedding (M-RoPE) to fuse information across modals effectively and be capable of understanding videos over 20 minutes in length.」、「Furthermore, Qwen2-VL now supports understanding multilingual texts within images, including most European languages, Japanese, Korean, Arabic, Vietnamese, and others.」と動画対応、日本語対応と強力なマルチモーダルモデル。
  • GRIN: GRadient-INformed MoE [132.9]
    Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。 エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。 我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 17:00:20 GMT)
  • 「We propose SparseMixer-v2 to estimate the gradient related to expert routing, while the conventional MoE training treats expert gating as a proxy for the gradient estimation.」、「We scale MoE training with neither expert parallelism nor token dropping, while the conventional MoE training employs expert parallelism and deploys token dropping.」を特徴とするMoEの改善
  • MoE構成でも意外とExpertにならないという報告を読んだ記憶があるが「Our study seems to verify our hypothesis that expert networks in GRIN MoE have developed highly-specialized and heterogeneous expertise.」という記載が興味深い。

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

  • MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.4]
    我々は、画像テキストの命令データをキュレートするための新しいフレームワークであるMMEvolを提案する。 MMEvolは、微粒な知覚の進化、認知的推論の進化、相互作用の進化を組み合わせている。 提案手法は,3.1ポイントの平均精度向上を実現し,13の視覚言語タスクのうち9つで最先端(SOTA)性能に達する。
    論文  参考訳(メタデータ)   (Mon, 9 Sep 2024 17:44:00 GMT)
  • 「a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution.」、マルチモーダルな点が特徴的。効果は「The data evolved through three rounds of evolution is used to train a new model, demonstrating state-of-the-art (SOTA) performance across a comprehensive set of benchmarks.」としている。
  • テキストや数学的問題を超えて、マルチモーダルな文脈でも有効性が確かめられているのは面白いのと、今後の取り組みで画像生成モデルとの統合に言及があった点も興味深い。
  • プロジェクトサイトはMMEvol: Welcome (rainbowluocs.github.io)