Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs
Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.8] 大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。 彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。 本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。 論文参考訳(メタデータ) (Wed, 02 Jul 2025 18:27:42 GMT)
「This survey presents a comprehensive review of efficient test-time compute (TTC) strategies, which aim to improve the computational efficiency of LLM reasoning. We introduce a two-tiered taxonomy that distinguishes between L1 controllability—methods that operate under fixed compute budgets—and L2 adaptiveness—methods that dynamically scale inference based on input difficulty or model confidence.」というサーベイ。
商用モデルでのハイブリッドアプローチも流行っていて色々と苦労している部分なんだろうなと思う。
Predicting thinking time in Reasoning models [42.6] 推論モデルは長く隠れた思考の連鎖を生み出します。 ユーザーは、答えを返す前にモデルが推論にどれくらいの時間を費やすかについての洞察がほとんどない。 論文参考訳(メタデータ) (Sun, 29 Jun 2025 15:01:01 GMT)
LRMにおける推論時間の予測に関する報告。
「In this paper, we explore methods for online prediction of thinking time in reasoning models. Our experiments demonstrate that current models encode a notion of progress in their internal representations, with an mlp probe achieving 45% accuracy over 10 classes, moreover the errors appear highly local (MAE 1).」