staka – ページ 25 – arXiv最新論文の紹介

Self-Taught Self-Correction for Small Language Models

Self-Taught Self-Correction for Small Language Models [16.5]
本研究は,自己生成データのみを用いた反復的微調整により,小言語モデル(SLM)における自己補正を探索する。複数のアルゴリズム設計選択を組み込んだ自己学習自己補正アルゴリズム(STaSC)を導入する。質問応答タスクの実験結果から,STaSCは自己補正を効果的に学習し,性能が大幅に向上することが示された。
論文参考訳（メタデータ） (Tue, 11 Mar 2025 17:57:44 GMT)
STaRに自己補正を様々組み込んだSelf-Taught Self-Correction (STaSC)の提案。
リポジトリはGitHub – VityaVitalich/STASC: [ICLR 2025 SSI-FM] Self-Taught Self-Correction for Small Language Models

Gemma3, Command A, OLMo 2 32B, ERNIE 4.5 & X1

ずっと週刊LLMという状態だが、先週のGemma3の発表は大きなニュースだった（Gemma 3: Google’s new open model based on Gemini 2.0）。寛容なライセンスの公開モデルで性能も強力。今後LRM化するのだろうと思うと非常に期待が持てる。NCではあるがCohereのCommand Aの発表（Introducing Command A: Max performance, minimal compute）もあった。

Ai2からはOLMo 2の32B版が発表されている（OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini | Ai2）。こちらはモデル構築過程や使用したデータセットを含め多くを公開している点が特徴でモデルのみを公開しているモデルよりもオープンである。

OpenAIからはエージェント開発に有用なAPIやツールが公開されている（エージェント開発のための新たなツール | OpenAI）ように、活用・運用には周辺ツールもとても重要になるが、ローカルLLMへの期待は高まっているように感じる。

BaiduからはERNIE 4.5とLRMのX1が発表される（XユーザーのBaidu Inc.さん: 「We’ve just unveiled ERNIE 4.5 & X1! 🚀 As a deep-thinking reasoning model with multimodal capabilities, ERNIE X1 delivers performance on par with DeepSeek R1 at only half the price. Meanwhile, ERNIE 4.5 is our latest foundation model and new-generation native multimodal model. https://t.co/cLKVHYvbzw」 / X）など商用APIでも激しい競争が続く。

A Survey on Post-training of Large Language Models

A Survey on Post-training of Large Language Models [185.5]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文参考訳（メタデータ） (Sat, 08 Mar 2025 05:41:42 GMT)
Fugu-MT 論文翻訳(概要): LLM Post-Training: A Deep Dive into Reasoning Large Language Modelsとは別チームによるPost Traningのサーベイ
「This paper offers the first exhaustive survey of Post-training Language Models (PoLMs), systematically tracing their trajectory from ChatGPT’s alignment origins in 2018 to DeepSeek-R1’s reasoning milestone in 2025, and affirming their transformative influence on reasoning precision, domain adaptability, and ethical integrity.」とある通り、最新の情報を含むサーベイで57ページととても包括的。

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems [88.3]
AgiBot Worldは、217のタスクにまたがる100万以上のトラジェクトリを5つのデプロイメントシナリオで構成した大規模なプラットフォームである。 AgiBot Worldは高品質で多様なデータ配信を保証する。 GO-1は、現実世界のデクスタラスタスクや長距離タスクにおいて例外的な能力を示す。
論文参考訳（メタデータ） (Sun, 09 Mar 2025 15:40:29 GMT)
「1) We construct AgiBot World dataset, a multifarious robot learning dataset accompanied by opensource tools to advance research on policy learning at scale.」という大規模データセット構築と「2) We propose GO1, a robot foundation policy using latent action representations to unlock web-scale pre-training on heterogeneous data.」の提案。 Shanghai AI Lab,、AgiBot Inc. 、Shanghai Innovation Instituteによる成果。この領域もLLM的な進化となるのだろうか…。
リポジトリはGitHub – OpenDriveLab/AgiBot-World: The Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems、プロジェクトサイトはAgiBot World Colosseo | OpenDriveLab

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.7]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文参考訳（メタデータ） (Fri, 07 Mar 2025 04:43:39 GMT)
Ling Team, AI@Ant GroupによるLLM。コストパフォーマンスに優れるトレーニング方針が特徴的で異なる構成のクラスタが複数ある状況を想定したレシピになっている。大規模構成のLing Plusを含めモデルが公開されている。
リポジトリはinclusionAI (inclusionAI)

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.1]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (Fri, 28 Feb 2025 18:59:54 GMT)
LRMでも注目されるPost training関連のサーベイ、Fine-tuning, Reinforcement Learning, Test-time Scalingが大きなキーワード。
リポジトリはGitHub – mbzuai-oryx/Awesome-LLM-Post-training: Awesome Reasoning LLM Tutorial/Survey/Guide

AI-native Memory 2.0: Second Me

AI-native Memory 2.0: Second Me [26.4]
SECOND MEはインテリジェントで永続的なメモリオフロードシステムとして機能する。コンテキスト対応の応答を生成し、必要な情報をプリフィルし、外部システムとのシームレスな通信を容易にする。さらに、第2のMEは、永続的で文脈的に認識され、自己最適化されたメモリシステムとの人間と世界の相互作用を強化するための重要なステップである。
論文参考訳（メタデータ） (Wed, 12 Mar 2025 11:31:31 GMT)
HippoRAG2, RAG vs Graph RAG, A-MEM: Agentic Memory for LLM Agents – arXiv最新論文の紹介のAgentic Memory的なアプローチに見えるAIと協働することを前提としたメモリシステムの提案。実装に興味があるのでOSS部分をみてたいところ。
リポジトリはhttps://github.com/Mindverse/Second-Meとのことだが、現状は404

A Survey of Model Architectures in Information Retrieval

A Survey of Model Architectures in Information Retrieval [64.8]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文参考訳（メタデータ） (Thu, 20 Feb 2025 18:42:58 GMT)
LLMの影響を受け、また、LLM時代で重要性増すInformation Retrievalのサーベイ
結論の「Information retrieval modeling has evolved from simple term matching to complex neural networks and LLM-driven approaches, significantly improving search capabilities. Key challenges ahead include balancing computational efficiency with performance, handling diverse data types, maintaining faithfulness and trustworthiness, and integrating with emerging technologies like autonomous agents.」はその通りと思う。

LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue

LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue [5.1]
PRAISEは効果的なユーザ満足度予測のための解釈可能なフレームワークである。 3つのモジュールを通して動作する。ユーザ満足度推定タスクの3つのベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (Thu, 06 Mar 2025 18:12:33 GMT)
ユーザ満足度を推定するためのフレームワーク「PRAISE (Plan and Retrieval Alignment for Interpretable Satisfaction Estimation)」の提案。AgenticなアプローチでStrategy Planner、Feature Retriever、Score Analyzerで構成。
興味深い結果だが、LLM（API）が若干古いような気がしなくもない。最新のAPIだとどのような結果になるのだろうか。

BIG-Bench Extra Hard

BIG-Bench Extra Hard [98.4]
大規模言語モデル(LLM)は、ますます日常的なアプリケーションにデプロイされ、堅牢な一般的な推論機能を必要としている。 BIG-Benchデータセットは、LLMの一般的な推論能力を評価するための重要なベンチマークとして機能している。最先端のモデルは、BIG-Benchの多くのタスクにおいてほぼ完璧なスコアを得るため、その実用性は低下する。 BIG-Bench Extra Hard (BBEH) は, LLM推論評価のバウンダリを推し進めるための新しいベンチマークである。
論文参考訳（メタデータ） (Wed, 26 Feb 2025 14:50:50 GMT)
BIG-Benchの強化版、「Solving the tasks in BBEH requires even further reasoning skills than the problems in BBH. These skills include, but are not limited to, many-hop reasoning, learning on the fly, finding errors in reasoning traces, processing long-context inputs and finding (multi-)needles in a haystack, going against strong prior, dealing with long-range dependencies, dealing with distractors and inducing patterns from examples.」と推論に関する能力が必要になるよう。LRM、o3-mini(high)はまずまずのスコアである一方で一部タスクを苦手としているDeepseek R1のスコアが低いのが興味深い。
リポジトリはGitHub – google-deepmind/bbeh

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31