LHRM – arXiv最新論文の紹介

Think Only When You Need with Large Hybrid-Reasoning Models [121.6]
LHRM(Large Hybrid-Reasoning Model) ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できるモデル。実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
論文参考訳（メタデータ） (Wed, 21 May 2025 05:17:34 GMT)
LLM, LRMハイブリッドな手法の提案。「We begin with a hybrid-formatted supervised fine-tuning stage named Hybrid Fine-Tuning (HFT) that integrates both reasoning-intensive (Thinking) and direct-answer (No-Thinking) data. This approach mitigates the instability often observed in cold-start scenarios [GYZ+25], and establishes a robust initialization for next stage reinforcement learning.」という第一ステージを挟んでいるのが面白い。
LHRMという略語が定着する可能性があるのかは若干気になる。
リポジトリはAdvancing AI for Humanity

Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.1]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (Tue, 20 May 2025 16:53:40 GMT)
「we propose a novel endogenous approach, Self-Braking Tuning (SBT), to mitigating overthinking in large language models.」とtoken節約という意味では近い内容。
リポジトリはGitHub – ZJU-REAL/Self-Braking-Tuning: Let LLMs Break Free from Overthinking via Self-Braking Tuning