効率性 – arXiv最新論文の紹介

InternVL3, PerceptionLM, BitNet b1.58 2B4T

公開モデルでも興味深いものが発表されている。InternVL3はVision-Languageモデルで有名なInternVLのver 3、オープンなMLLMのSoTA、78Bと大型で商用モデルとも競合する性能を主張。PerceptionLMはMetaによるオープンなVLM（Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding.）。

上記とは雰囲気が異なるBitNet b1.58 2B4TはBitNetの実装・公開モデル。「The core contribution of this work is to demonstrate that a native 1-bit LLM, when trained effectively at scale, can achieve performance comparable to leading open-weight, full-precision models of similar size across a wide range of tasks.」とのこと。

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.5]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文参考訳（メタデータ） (Mon, 14 Apr 2025 17:59:25 GMT)
リポジトリはGitHub – OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型、モデルはOpenGVLab/InternVL3-78B · Hugging Face

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.2]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文参考訳（メタデータ） (Thu, 17 Apr 2025 17:59:56 GMT)
リポジトリはGitHub – facebookresearch/perception_models: State-of-the-art Image & Video CLIP, Multimodal Large Language Models, and More!、データセットも公開されているPLM Data | Meta AI Research

BitNet b1.58 2B4T Technical Report [118.8]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。 4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (Wed, 16 Apr 2025 17:51:43 GMT)
リポジトリはGitHub – microsoft/BitNet: Official inference framework for 1-bit LLMs、モデルはmicrosoft/bitnet-b1.58-2B-4T · Hugging Face
デモもある（Bitnet）が、特に日本語性能はかなり物足りない。（日本語になっているだけすごいともいえるが・・・）

A Survey on Memory-Efficient Large-Scale Model Training in AI for Science

A Survey on Memory-Efficient Large-Scale Model Training in AI for Science [20.3]
この調査は、生物学、医学、化学、気象学などの科学分野にまたがる応用をレビューする。本稿では,変圧器アーキテクチャに基づく大規模言語モデル(LLM)のメモリ効率トレーニング手法について概説する。予測精度を保ちながら,メモリ最適化手法がストレージ需要を削減できることを実証する。
論文参考訳（メタデータ） (Tue, 21 Jan 2025 03:06:30 GMT)
科学への応用にフォーカスしたMemory Efficientなモデルのサーベイ
「Using AlphaFold 2 as an example, we demonstrate how tailored memory optimization methods can reduce storage needs while preserving prediction accuracy.」という内容も。

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文参考訳（メタデータ） (Wed, 22 Jan 2025 01:35:11 GMT)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs – arXiv最新論文の紹介でもあったが、やりすぎなくらいトークンを消費することを防ぐLength Harmonizing Fine-Tuning (O1-Pruner)の提案、最適化の目標について、短いシーケンスを評価するような設計にしているよう。
リポジトリはGitHub – StarDewXXX/O1-Pruner: Official repository for paper: O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora

Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.0]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文参考訳（メタデータ） (Fri, 06 Dec 2024 16:06:08 GMT)
「Participants could submit to a 10M-word text-only track, a 100Mword text-only track, and/or a 100M-word and image multimodal track.」というデータを制限したコンペの結果
「With 31 submissions from 17 countries, the challenge revealed several key insights: innovations in model architecture, training objectives, and dataset construction proved particularly effective, with GPT-BERT, a hybrid causalmasked language model architecture, emerging as the strongest approach for the Strict and StrictSmall tracks.」とのこと

On Efficient Variants of Segment Anything Model: A Survey

On Efficient Variants of Segment Anything Model: A Survey [63.1]
Segment Anything Model (SAM) は画像分割タスクの基本モデルであり、多様なアプリケーションにまたがる強力な一般化で知られている。これを解決するために、精度を犠牲にすることなく効率を高めるために様々なSAM変種が提案されている。この調査は、これらの効率的なSAM変種に関する最初の包括的なレビューを提供する。
論文参考訳（メタデータ） (Mon, 07 Oct 2024 11:59:54 GMT)
SAMのサーベイ
効率化を主体としたものとはいえこれだけの変種があるのに驚き。。

Weak-to-Strong Extrapolation Expedites Alignment

Weak-to-Strong Extrapolation Expedites Alignment [135.1]
人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。 AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
論文参考訳（メタデータ） (Thu, 25 Apr 2024 17:39:50 GMT)
「By extrapolating from the weights of an SFT model Mw and a further trained one M, EXPO enables directly obtaining a better-aligned model without any additional training.」という手法の提案。とてもシンプルに外装しているように見え、なんでこんなんでうごくんや。
リポジトリはGitHub – chujiezheng/LLM-Extrapolation: Official repository for paper “Weak-to-Strong Extrapolation Expedites Alignment”

JetMoE: Reaching Llama2 Performance with 0.1M Dollars

JetMoE: Reaching Llama2 Performance with 0.1M Dollars [25.3]
このレポートでは、JetMoE-8Bという新しい大規模言語モデルを紹介します。低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。
論文参考訳（メタデータ） (Thu, 11 Apr 2024 00:52:39 GMT)
安価（といっても「$0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours.」）でLLMを構築するレシピの提案
リポジトリはmyshell-ai/JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars (github.com)

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length [112.8]
文脈長無制限の効率的なシーケンスモデリングのためのニューラルネットワークであるMegalodonを紹介する。 Llama2と比較して、Megalodonは70億のパラメータと2兆のトレーニングトークンのスケールでTransformerよりも効率が良い。
論文参考訳（メタデータ） (Fri, 12 Apr 2024 20:28:14 GMT)
Transformerより効率が良いとする構造の提案。MEGA (exponential moving average with gated attention)を継承。同規模のLlama2より性能がよさそうで驚き。
リポジトリはXuezheMax/megalodon: Reference implementation of Megalodon 7B model (github.com)

Rho-1: Not All Tokens Are What You Need

Rho-1: Not All Tokens Are What You Need [132.3]
「コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要ではない」 Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
論文参考訳（メタデータ） (Thu, 11 Apr 2024 17:52:01 GMT)
「Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution.」によって最終性能が上がるという報告。高品質（所望の）ドキュメントで参照モデルを構築し、その結果を利用してトークンを選択するアプローチのよう。
リポジトリはmicrosoft/rho: Token-level Data Filtering & Selective Pretraining of LLMs. (github.com)

PEFTのサーベイ

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey [57.5]
Efficient Fine-Tuning (PEFT) は、様々な下流タスクに対して大きなモデルを効率的に適応することで、実用的なソリューションを提供する。 PEFTは、事前訓練された大規模モデルのパラメータを調整して特定のタスクに適応させ、追加のパラメータや計算リソースの数を最小限にするプロセスを指す。この調査は、PEFTアルゴリズムとそのシステム実装の両方を理解することを目的とした研究者にとって必須のリソースであり、最近の進歩と実用化に関する詳細な知見を提供する。
論文参考訳（メタデータ） (Thu, 21 Mar 2024 17:55:50 GMT)
PEFTのサーベイ
非常に多くの研究成果が出ている領域であり、ほんとうにありがたい

2025年9月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30