SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model

  • SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model [33.9]
    SmolLM2は、最先端の”小” (170億のパラメータ) 言語モデルである。 我々はSmolLM2を1兆のトークンでオーバートレーニングし、Webテキストと特殊な算数、コード、命令追従データとを混合する多段階のトレーニングプロセスを用いた。 我々は、SmolLM2がQwen2.5-1.5BやLlama3.2-1Bなど、最近の小さなLMよりも優れていることを示した。
    論文  参考訳(メタデータ)   (Tue, 04 Feb 2025 21:43:16 GMT)
  • HuggingfaceによるSLM、「SmolLM2 advances the state-of-the-art for open small LMs through a combination of careful dataset curation and multistage training.」とのこと。「SmolLM2 outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B.」を主張
  • リポジトリはSmolLM2 – a HuggingFaceTB Collection

DeepSeek v3, QVQ-72B-Preview, YuLan-Mini

公開モデルも高性能化が続いている。DeepSeek v3は671Bと非常に大きなモデル(だが、アクティブパラメータは37BのMoE)でGPT-4oやClaude 3.5 Sonnet競合を主張。 GitHub – deepseek-ai/DeepSeek-V3

QVQ-72B-PreviewはQwen 2.5, Qwen 2 VL, GRIN-MoE, Pixtral – arXiv最新論文の紹介のQwen2 VLから推論能力を強化、GPT-4oだけでなくタスクによってはOpenAI o1と競合する性能を主張。QVQ: To See the World with Wisdom | Qwen

YuLan-Miniは2.42B、1.08Tトークンでのトレーニングと比較的小規模だが、競合する公開モデルを上回る性能を主張。YuLan-Mini/README_ja.md at main · RUC-GSAI/YuLan-Mini · GitHub

中国の研究機関はモデルや手法をかなり公開してくれている印象。非常にありがたい。

  • YuLan-Mini: An Open Data-efficient Language Model [111.0]
    2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。 注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 17:47:53 GMT)
  • 「Our approach includes three major contributions to enhance training efficacy: (1) an elaborately designed data pipeline that combines data cleaning with data schedule strategies; (2) a systematic optimization method that can effectively mitigate training instability; (3) an effective annealing approach that integrate targeted data selection and long context training.」とのこと。
  • DeepSeek-V3 Technical Report [147.2]
    We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token。 我々は14.8兆の多様性と高品質のトークンでDeepSeek-V3を事前訓練し、その後にSupervised Fine-Tuning and Reinforcement Learningのステージを受講した。 包括的な評価によると、DeepSeek-V3は他のオープンソースモデルよりも優れており、主要なクローズドソースモデルに匹敵するパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 04:03:16 GMT)
  • 「During the pre-training stage, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours, i.e., 3.7 days on our cluster with 2048 H800 GPUs. Consequently, our pretraining stage is completed in less than two months and costs 2664K GPU hours. Combined with 119K GPU hours for the context length extension and 5K GPU hours for post-training, DeepSeek-V3 costs only 2.788M GPU hours for its full training. Assuming the rental price of the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M.」ととてもコストパフォーマンスが良い。もっとも「Note that the aforementioned costs include only the official training of DeepSeek-V3, excluding the costs associated with prior research and ablation experiments on architectures, algorithms, or data.」
  • Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code [123.7]
    本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。 これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。 我々はAurora-Mを幅広いタスクや言語で評価し、破滅的な忘れ物に対する頑健さを示した。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 03:53:21 GMT)
  • aurora-m/aurora-m-biden-harris-redteamed · Hugging Face こういったモデルも存在。対応言語に日本語が明記されている。

Phi4, InternVL 2.5, EXAONE 3.5

Gemini 2.0やOpenAIの12日間発表で盛り上がっているが、OSSや公開モデルについても様々なモデルが発表されている。

  • Phi-4 Technical Report [72.1]
    本研究では,データ品質に重点を置いた14ビリオンパラメータ言語モデル phi-4 を提案する。 多くの言語モデルとは異なり、事前学習は主にWebコンテンツやコードなどの有機データソースに基づいており、phi-4はトレーニングプロセス全体を通して戦略的に合成データを組み込んでいる。
    論文  参考訳(メタデータ)   (Thu, 12 Dec 2024 03:37:41 GMT)
  • 小型、高性能モデルPhiの最新バージョン、「phi-4 strategically incorporates synthetic data throughout the training process.」とのことで合成データをうまく活用するアプローチ。Phi3を超え、GPT-4o miniに迫っている優秀なモデル。
  • 公式Blogでも発表がある Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning | Microsoft Community Hub
  • EXAONE 3.5: Series of Large Language Models for Real-world Use Cases [35.0]
    EXAONE 3.5言語モデルは32B、7.8B、2.4Bの3つの構成で提供されている。 商用利用については、LG AI Researchの公式コンタクトポイントを参照してください。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 09:31:10 GMT)
  • LGによる公開モデル、同サイズのQwen2.5と競合する性能
  • リポジトリはLGAI-EXAONE (LG AI Research)
  • Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [121.1]
    InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。 このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
    論文  参考訳(メタデータ)   (Fri, 06 Dec 2024 18:57:08 GMT)
  • OSSのMLLM、性能は商用モデルと競合的とのこと。「we integrate a newly incrementally pre-trained InternViT with various pre-trained LLMs, including InternLM 2.5 and Qwen 2.5, using a randomly initialized MLP projector.」というアーキテクチャでViTをProjectorでLLMとつなぐアプローチ
  • リポジトリはOpenGVLab/InternVL2_5-78B · Hugging FaceGitHub – OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型
  • Owl-1: Omni World Model for Consistent Long Video Generation [75.5]
    Omni World ModeL (Owl-1) を提案する。 Owl-1 は VBench-I2V と VBench-Long の SOTA メソッドと同等の性能を実現している。
    論文  参考訳(メタデータ)   (Thu, 12 Dec 2024 18:59:01 GMT)
  • 動画生成モデル、リポジトリはGitHub – huang-yh/Owl

Model Context Protocol (MCP), QwQ, OLMo 2

先週も様々なニュースがあったが、注目はAnthropicのModel Context Protocolである。 Introducing the Model Context Protocol \ AnthropicIntroduction – Model Context Protocol

ザックリとはLLMと外部データやツールを統合するためのプロトコルである。外部ツール利用やメモリの拡張利用などを前提としたLLMを構築する場合、この手の標準があるかないかは重要。MCPがデファクトスタンダードとなれるか興味津々。

公開モデル関連では極めて性能の高いQwen with Questions(QwQ)、以前取り上げたDolmaとOLMo – arXiv最新論文の紹介のver 2であるOLMo 2に要注目である。O1 Replication JurneyやTULU3もだが、どのような手法、アプローチで性能が上がるのかなどをオープンにした取り組みの価値は高い。

  • O1 Replication Journey — Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson? [30.9]
    本稿では,OpenAIのO1モデル機能を複製する現在のアプローチについて,批判的な考察を行う。 O1のAPIからの単純な蒸留と教師付き微調整を組み合わせることで、複雑な数学的推論タスクにおいて優れた性能が得られることを示す。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 15:31:27 GMT)
  • OpenAI o1に関する研究、Fugu-MT 論文翻訳(概要): O1 Replication Journey: A Strategic Progress Report — Part 1からのPart2。「While our previous work (Part 1 (Qin et al , 2024)) explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1’s API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks.」はまぁいいとして「Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning.」は驚き。
  • リポジトリはGitHub – GAIR-NLP/O1-Journey: O1 Replication Journey: A Strategic Progress Report – Part I
  • TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.1]
    我々は、完全にオープンな最先端の訓練後モデルであるT”ULU 3を紹介する。 T”ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
    論文  参考訳(メタデータ)   (Fri, 22 Nov 2024 18:44:04 GMT)
  • リポジトリはGitHub – allenai/open-instruct

Llama-3.1-Nemotron-70B, Ministral, Baichuan-Omni 

NVidiaから「This model reaches Arena Hard of 85.0, AlpacaEval 2 LC of 57.6 and GPT-4-Turbo MT-Bench of 8.98, which are known to be predictive of LMSys Chatbot Arena Elo As of 1 Oct 2024, this model is #1 on all three automatic alignment benchmarks (verified tab for AlpacaEval 2 LC), edging out strong frontier models such as GPT-4o and Claude 3.5 Sonnet.」を主張するnvidia/Llama-3.1-Nemotron-70B-Instruct-HF · Hugging Face、Mistralからは小規模だが高性能なMinistralが発表されている(Un Ministral, des Ministraux | Mistral AI | Frontier AI in your hands)。Baichuan-Omni はテキスト、画像、動画、音声に対応したマルチモーダルモデルでOSSで公開するとのこと。商用非公開モデルの大きなニュースリリースが予定されているようでそれも楽しみだが、weightが公開されるモデルが増えるのはありがたい。

1つ目はLlama-3.1-Nemotron-70B-Reward と HelpSteer2-Preference prompts を用いてLlama-3.1-70B-Instruct modelをチューニングしたものとのこと。NVIDIAは高効率なアーキテクチャの研究も進めているなど要注目。

2つ目、3つ目のような小規模高性能モデルも様々出ており、性能も検証してみたいところ。

  • HelpSteer2-Preference: Complementing Ratings with Preferences [45.0]
    リワードモデルは、指示に従うためにモデルを整列させるのに不可欠である。 データに適切にマッチする場合、どちらのアプローチも他方よりも優れているという証拠が不足している。 そこで我々はBradley-Terry styleとRegression reward Modelingを組み合わせた新しい手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 06:05:52 GMT)
  • nGPT: Normalized Transformer with Representation Learning on the Hypersphere [23.7]
    我々は新しいニューラルネットワークアーキテクチャ、正規化トランスフォーマー(nGPT)を提案する。 nGPTはより高速に学習し、同じ精度を達成するために必要なトレーニングステップの数を4から20に削減する。
    論文  参考訳(メタデータ)   (Tue, 01 Oct 2024 23:50:09 GMT)

Agent S: An Open Agentic Framework that Uses Computers Like a Human 

  • Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.2]
    我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:43:51 GMT)
  • 人が操作するようにコンピュータを操作するエージェントフレームワークの提案
  • リポジトリはGitHub – simular-ai/Agent-S: Official codebase for Agent S, a open agentic framework that uses computers like a human

Loki: An Open-Source Tool for Fact Verification 

  • Loki: An Open-Source Tool for Fact Verification [49.5]
    Lokiは、誤情報の増加に対処するために設計されたオープンソースのツールだ。 長いテキストを個々のクレームに分割し、チェックの信頼性を評価し、クエリを生成し、エビデンスを取得し、クレームを検証する。 LokiはMITライセンスでリリースされており、GitHubから入手できる。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 17:52:41 GMT)
  • OSSのファクトチェックツール、チェックすべきファクト(主張)の分解後、WEB検索結果を用いてファクトチェックを行うアプローチ
  • リポジトリはGitHub – Libr-AI/OpenFactVerification: Loki: Open-source solution designed to automate the process of verifying factuality

Llama3.2, Molmo, EMOVA

先週はマルチモーダルで公開モデルであるLLMの話題が多かった。Llama 3.2はLlamaのアップデートであり90BでGPT-4o miniに匹敵、Molmoは72BでGPT-4oに競合するとのこと。商用モデルに公開モデルが追いつきつつある状況で今後が非常に楽しみである。

公開モデルではないようだが、複数のモデルを組み合わせたEMOVAはGemini Pro 1.5やGPT-4V以上、GPT-4oのスコアの95%以上を達成と主張している。

  • Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.2]
    Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。 私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。 近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
    論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 17:59:51 GMT)
  • プロジェクトサイトはmolmo.allenai.org/blog、「The best-inclass 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation.」。PixMo (Pixels for Molmo)というデータセットを構築、その品質が性能向上に寄与しているとのこと。
  • デモはMolmo by Ai2 (allenai.org)、リポジトリはMolmo – a allenai Collection (huggingface.co)、Apache-2のOSSであることも凄い。
  • EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [150.9]
    GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。 本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
    論文  参考訳(メタデータ)   (Thu, 26 Sep 2024 16:44:02 GMT)
  • マルチモーダルなモデル、「EMOVA exceeds both GPT-4V and Gemini Pro 1.5 significantly on 10 out of 14 benchmarks, while for GPT-4o, EMOVA outperforms on both SEEDBench-Image and OCRBench, reaching over 95% of GPT-4o’s performance on ALL evaluated benchmarks except RealWorldQA.」とのこと。LLaMA-3.1-8B +InternViT-6B+ Speechモデル(既存アーキテクチャをベースに著者らがpre train)なアーキテクチャ。
  • プロジェクトサイトはEMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion (emova-ollm.github.io)

OLMoE, Reflection-70B, Tanuki-8×8B, 8B

OSSまたは公開モデルのLLM開発は引き続き盛んである。

OLMoE-1B-7BはMoE構成の小規模・高性能モデル(リポジトリ:allenai/OLMoE-1B-7B-0924 · Hugging Face、Apache-2ライセンス)で論文も公表されている。

Reflection-70Bは現時点で最高レベルの性能をもつ公開モデル(リポジトリ:mattshumer/Reflection-Llama-3.1-70B · Hugging Face、Llama 3.1ライセンス)、現状詳細は公開されていなさそうだが、「Reflection Llama-3.1 70B is (currently) the world’s top open-source LLM, trained with a new technique called Reflection-Tuning that teaches a LLM to detect mistakes in its reasoning and correct course. The model was trained on synthetic data generated by Glaive.」との記載がある。

日本でも東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab (u-tokyo.ac.jp)が発表されているのが素晴らしい。こちらは開発過程が大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など (zenn.dev)で公開されている。合成データの活用は最近発表された海外モデルでも多用されているテクニック。

  • OLMoE: Open Mixture-of-Experts Language Models [180.2]
    OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
    論文  参考訳(メタデータ)   (Tue, 03 Sep 2024 17:08:20 GMT)
  • Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.3]
    トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。 我々は「反射チューニング」と呼ばれる新しい手法を提案する。 このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
    論文  参考訳(メタデータ)   (Wed, 18 Oct 2023 05:13:47 GMT)
  • Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning [39.7]
    最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。 本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善する新パラダイムであるSelective Reflection-Tuningを紹介する。 この教師と学生の協調作業により、高品質で生徒互換の授業応答ペアが作成され、結果としてサンプル効率のよい指導チューニングがもたらされる。
    論文  参考訳(メタデータ)   (Fri, 07 Jun 2024 20:23:21 GMT)
  • リポジトリはGitHub – tianyi-lab/Reflection_Tuning: [ACL’24] Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

HERMES 3, Jamba 1.5, Mistral-NeMo-Minitron-8B, Llama-3.1-Minitron-4B, BLIP-3

先週も公開モデルに関する報告が出ていた。HERMES 3はHERMESシリーズの最新版でLlama3.1ベース(Paper page – Hermes 3 Technical Report (huggingface.co))、Jamba1.5はTransformer-Mambaの混合アーキテクチャ。 Jamba-1.5-Largeはアクティブパラメータが94Bとこの手のモデルでは非常に大規模。最後のMinitronは以前紹介したアプローチで小規模化したモデルである。

  • Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.9]
    提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。 94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。 どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
    論文  参考訳(メタデータ)   (Thu, 22 Aug 2024 17:38:59 GMT)
  • TransformerとMambaの混合アーキテクチャで高速なモデルJambaのアップデート。以前より大規模化している。Llama3.1やGemma、MistralなどのTransformerベースのアーキテクチャと比較されているが、スコア特性が違うように見えるのが興味深い。(データの差かもしれないが。。)
  • リポジトリはJamba-1.5 – a ai21labs Collection (huggingface.co)
  • xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.4]
    本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。 このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。 私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
    論文  参考訳(メタデータ)   (Fri, 16 Aug 2024 17:57:01 GMT)
  • xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs)
  • プロジェクトサイトは、GitHub – salesforce/LAVIS at xgen-mm