- A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.9]
本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。 本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。 我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
論文 参考訳(メタデータ) (Wed, 29 Oct 2025 17:01:55 GMT) - 「We propose a taxonomy of data-efficient LLM post-training methods, covering data selection, data quality enhancement, synthetic data generation, data distillation and compression, and self-evolving data ecosystems. We summarize representative approaches in each category and outline future research directions.」というサーベイ。
- リポジトリはGitHub – luo-junyu/Awesome-Data-Efficient-LLM: A list of data-efficient and data-centric LLM (Large Language Model) papers. Our Survey Paper: Towards Efficient LLM Post Training: A Data-centric Perspective
タグ: 効率性
MiniMax M2, Kimi-Linear, Ling-V2, Ouro, Emu3.5, gpt-oss-safeguard
先週は公開モデルの話題が多く、その中でもMiniMax-M2 とKimi-Linearは要注目。特に後者は効率性も高い。先週のRingとややこしいが、Ling-V2も強力なモデルである(This report focuses on three reflex-grade non-thinking (instruct) models in the Ling 2.0 family—Ling-mini-2.0, Ling-flash-2.0, and Ling-1T. These models emphasize general reasoning and instruction-following capability, while the Ring series (Ling-Team, 2025), built upon the same Ling 2.0 base, extends toward deep thinking models.とのこと)。また、小型モデルであるOuro-2.6B 、Ouro-2.6B-Thinkingも興味深かった。
上記とは異なるがマルチモーダルなEmu3.5、分類タスク(safety classification tasks)用のgpt-oss-safeguardなど強力なモデルが公開されるのは良いことだと思う。(最後の例は想定活用例が他とはだいぶ異なりそうではあるが。。)
- Kimi Linear: An Expressive, Efficient Attention Architecture [75.9]
Kimi Linearはハイブリッドな線形アテンションアーキテクチャで、初めて、公正な比較で完全にアテンションを上回ります。 中心となるKimi Delta Attention (KDA)は、Gated DeltaNetを拡張した表現力のある線形アテンションモジュールである。 我々は,Kimi Linearがより優れた性能と効率で十分な注意を払って,ドロップインで置き換えられることを示す。
論文 参考訳(メタデータ) (Thu, 30 Oct 2025 16:59:43 GMT) - 「At its core lies Kimi Delta Attention (KDA), a hardware-efficient linear attention module that extends Gated DeltaNet [111] with a finer-grained gating mechanism. While GDN, similar to Mamba2 [16], employs a coarse head-wise forget gate, KDA introduces a channel-wise variant in which each feature dimension maintains an independent forgetting rate, akin to Gated Linear Attention (GLA) [114]. This fine-grained design enables more precise regulation of the finite-state RNN memory, unlocking the potential of RNN-style models within hybrid architectures.」をハイブリッド構成で活用。
- GitHub – MoonshotAI/Kimi-Linear
- Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation [149.0]
Ling 2.0は、すべてのアクティベーションが推論能力を促進するという原則に基づいて構築された一連の推論指向の言語基盤である。 Ling 2.0は、経験的スケーリング法則によって導かれる、高い分散性、クロススケール一貫性、効率性を強調している。 シリーズには、Ling-mini-2.0、Ling-flash-2.0、Ling-1Tの3つの非思考モデルが含まれている。
論文 参考訳(メタデータ) (Sat, 25 Oct 2025 01:51:37 GMT) - 長いReasoningにフォーカスしたRing-1Tとはことなり、一般的な推論や指示に従う能力にフォーカス
- GitHub – inclusionAI/Ling-V2: Ling-V2 is a MoE LLM provided and open-sourced by InclusionAI.
- Scaling Latent Reasoning via Looped Language Models [109.6]
事前学習されたループ言語モデル(LoopLM)のファミリーであるOuroを提示し、オープンソース化する。 Ouro は (i) 潜時空間における反復計算, (ii) 学習深度割り当てのためのエントロピー規則化された目的, (iii) 7.7T トークンへのスケーリングによる事前学習段階への推論を構築する。
論文 参考訳(メタデータ) (Wed, 29 Oct 2025 17:45:42 GMT) - Looped Language Model (LoopLM) architectureによるモデル構築の報告。「we introduced Ouro, a family of Looped Language Models that demonstrate exceptional parameter efficiency by integrating iterative computation and adaptive depth directly into pre-training on 7.7T tokens. Our 1.4B and 2.6B models consistently match or exceed the performance of 4B and 8B standard transformers, showcasing a 2-3× efficiency gain.」と非常に効率が高い。
- Ouro: Looped Language Models
- Parallel Loop Transformer for Efficient Test-Time Computation Scaling [34.8]
大規模言語モデル(LLM)は強力だが、推論中に現実世界で使うには遅すぎるしコストもかかる。 ループ変換器は、複数の計算ステップで同じ重みを再利用することでパラメータを節約する。 ループが次々と実行され、各追加ループで推論遅延とメモリ要求が増大する。
論文 参考訳(メタデータ) (Tue, 28 Oct 2025 15:35:50 GMT) - こちらは並列のParallel Loop Transformer (PLT)
- Emu3.5: Native Multimodal Models are World Learners [65.9]
Emu3.5は大規模マルチモーダル世界モデルで、視覚と言語をまたいだ次の状態をネイティブに予測する。 Emu3.5は、視覚言語間のインターリーブデータのコーパスに基づいて、一貫した次トーケン予測目標を持つ、エンドツーエンドで事前訓練された。 それは、一貫した世界探索とオープンワールドの具体的操作を可能にする、一般化可能な世界モデリング能力を示す。
論文 参考訳(メタデータ) (Thu, 30 Oct 2025 15:11:16 GMT) - Emuシリーズ(Emu3: Next-Token Prediction is All You Need – arXiv最新論文の紹介)の最新版。「Emu3.5 further exhibits generalizable worldmodeling abilities encompassing world exploration and embodied manipulation, enabling controllable interaction, free-form navigation, and dynamic scene simulation across both real and imagined environments. We carefully evaluate these new capabilities and demonstrate clear superiority of Emu3.5, a single 32B unified model, over the closed-source Gemini 2.5 Flash Image [91].」とのこと。
- emu.world/pages/web/landingPage、GitHub – baaivision/Emu3.5: Native Multimodal Models are World Learners
InternVL3, PerceptionLM, BitNet b1.58 2B4T
公開モデルでも興味深いものが発表されている。InternVL3はVision-Languageモデルで有名なInternVLのver 3、オープンなMLLMのSoTA、78Bと大型で商用モデルとも競合する性能を主張。PerceptionLMはMetaによるオープンなVLM(Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding.)。
上記とは雰囲気が異なるBitNet b1.58 2B4TはBitNetの実装・公開モデル。「The core contribution of this work is to demonstrate that a native 1-bit LLM, when trained effectively at scale, can achieve performance comparable to leading open-weight, full-precision models of similar size across a wide range of tasks.」とのこと。
- InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.5]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。 特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。 オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (Mon, 14 Apr 2025 17:59:25 GMT) - リポジトリはGitHub – OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型、モデルはOpenGVLab/InternVL3-78B · Hugging Face
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.2]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。 モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文 参考訳(メタデータ) (Thu, 17 Apr 2025 17:59:56 GMT) - リポジトリはGitHub – facebookresearch/perception_models: State-of-the-art Image & Video CLIP, Multimodal Large Language Models, and More!、データセットも公開されているPLM Data | Meta AI Research
- BitNet b1.58 2B4T Technical Report [118.8]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。 4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (Wed, 16 Apr 2025 17:51:43 GMT) - リポジトリはGitHub – microsoft/BitNet: Official inference framework for 1-bit LLMs、モデルはmicrosoft/bitnet-b1.58-2B-4T · Hugging Face
- デモもある(Bitnet)が、特に日本語性能はかなり物足りない。(日本語になっているだけすごいともいえるが・・・)
A Survey on Memory-Efficient Large-Scale Model Training in AI for Science
- A Survey on Memory-Efficient Large-Scale Model Training in AI for Science [20.3]
この調査は、生物学、医学、化学、気象学などの科学分野にまたがる応用をレビューする。 本稿では,変圧器アーキテクチャに基づく大規模言語モデル(LLM)のメモリ効率トレーニング手法について概説する。 予測精度を保ちながら,メモリ最適化手法がストレージ需要を削減できることを実証する。
論文 参考訳(メタデータ) (Tue, 21 Jan 2025 03:06:30 GMT) - 科学への応用にフォーカスしたMemory Efficientなモデルのサーベイ
- 「Using AlphaFold 2 as an example, we demonstrate how tailored memory optimization methods can reduce storage needs while preserving prediction accuracy.」という内容も。
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
- O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。 私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (Wed, 22 Jan 2025 01:35:11 GMT) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs – arXiv最新論文の紹介でもあったが、やりすぎなくらいトークンを消費することを防ぐLength Harmonizing Fine-Tuning (O1-Pruner)の提案、最適化の目標について、短いシーケンスを評価するような設計にしているよう。
- リポジトリはGitHub – StarDewXXX/O1-Pruner: Official repository for paper: O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora
- Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.0]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。 参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文 参考訳(メタデータ) (Fri, 06 Dec 2024 16:06:08 GMT) - 「Participants could submit to a 10M-word text-only track, a 100Mword text-only track, and/or a 100M-word and image multimodal track.」というデータを制限したコンペの結果
- 「With 31 submissions from 17 countries, the challenge revealed several key insights: innovations in model architecture, training objectives, and dataset construction proved particularly effective, with GPT-BERT, a hybrid causalmasked language model architecture, emerging as the strongest approach for the Strict and StrictSmall tracks.」とのこと
On Efficient Variants of Segment Anything Model: A Survey
- On Efficient Variants of Segment Anything Model: A Survey [63.1]
Segment Anything Model (SAM) は画像分割タスクの基本モデルであり、多様なアプリケーションにまたがる強力な一般化で知られている。 これを解決するために、精度を犠牲にすることなく効率を高めるために様々なSAM変種が提案されている。 この調査は、これらの効率的なSAM変種に関する最初の包括的なレビューを提供する。
論文 参考訳(メタデータ) (Mon, 07 Oct 2024 11:59:54 GMT) - SAMのサーベイ
- 効率化を主体としたものとはいえこれだけの変種があるのに驚き。。
Weak-to-Strong Extrapolation Expedites Alignment
- Weak-to-Strong Extrapolation Expedites Alignment [135.1]
人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。 AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。 本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
論文 参考訳(メタデータ) (Thu, 25 Apr 2024 17:39:50 GMT) - 「By extrapolating from the weights of an SFT model Mw and a further trained one M, EXPO enables directly obtaining a better-aligned model without any additional training.」という手法の提案。とてもシンプルに外装しているように見え、なんでこんなんでうごくんや。
- リポジトリはGitHub – chujiezheng/LLM-Extrapolation: Official repository for paper “Weak-to-Strong Extrapolation Expedites Alignment”
JetMoE: Reaching Llama2 Performance with 0.1M Dollars
- JetMoE: Reaching Llama2 Performance with 0.1M Dollars [25.3]
このレポートでは、JetMoE-8Bという新しい大規模言語モデルを紹介します。 低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。 本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。
論文 参考訳(メタデータ) (Thu, 11 Apr 2024 00:52:39 GMT) - 安価(といっても「$0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours.」)でLLMを構築するレシピの提案
- リポジトリはmyshell-ai/JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars (github.com)
Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length
- Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length [112.8]
文脈長無制限の効率的なシーケンスモデリングのためのニューラルネットワークであるMegalodonを紹介する。 Llama2と比較して、Megalodonは70億のパラメータと2兆のトレーニングトークンのスケールでTransformerよりも効率が良い。
論文 参考訳(メタデータ) (Fri, 12 Apr 2024 20:28:14 GMT) - Transformerより効率が良いとする構造の提案。MEGA (exponential moving average with gated attention)を継承。同規模のLlama2より性能がよさそうで驚き。
- リポジトリはXuezheMax/megalodon: Reference implementation of Megalodon 7B model (github.com)