- Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.8]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。 推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。 我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 03:17:17 GMT) - overthinking対策のため、</think>出現の監視は不十分として、推論終了ポイント Reasoning Completion Point (RCP)を検知するタスクを提案。推論過程をinsufficient exploration stage, compensatory reasoning stage, reasoning convergence stageに分類し、2ステージ目の終了時点をRCPとしている。
- 「We explicitly define the Reasoning Completion Point and propose a clear analytical framework for determining the optimal termination point in reasoning. Leveraging feature importance analysis via CatBoost models, we further mine common signals indicative of reasoning completion, from which we distill a concise and efficient set of heuristic rules named Reasoning Completion Point Detection. This rule set precisely identifies RCP with minimal computational over- head, effectively mitigating overthinking in LLMs.」とのこと。トークン数削減だけなく、推論性能上も有利なのが興味深い。
タグ: overthinking
Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models
- Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.6]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。 しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。 モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (Mon, 04 Aug 2025 06:54:31 GMT) - Reasoningの効率化に関するサーベイだが、すでに様々なアプローチと多くの研究成果があるのに驚き
- リポジトリはyuelinan/Awesome-Efficient-R1-style-LRMs
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models
- Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models [51.9]
大規模言語モデル(LLM)の最近の進歩は、複雑な推論タスクを実行する能力を大幅に強化している。 システム1推論は計算効率が良いが、最適以下の性能をもたらす。 システム2推論(System 2 reasoning)は、思考の遅さや非効率性、不必要な推論の振る舞いにより、かなりの計算コストを発生させることが多い。
論文 参考訳(メタデータ) (Mon, 31 Mar 2025 17:58:07 GMT) - 「In this survey, we provide a comprehensive analysis of reasoning economy in both the post-training and test-time inference stages of LLMs, encompassing」というサーベイ。
- リポジトリはGitHub – DevoAllen/Awesome-Reasoning-Economy-Papers: Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities
- Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.8]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。 議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。 適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (Sun, 23 Mar 2025 08:18:51 GMT) - 「The overall results of different LRMs under the Zero-Thinking, Summary-Thinking and Summary-Thinking-Plus mode for the evaluation of foundational capabilities.」の表5の結果が非常に興味深い。推論にパワーをかければよいというわけでもなく適応型戦略の重要性がよくわかる。
- リポジトリはGitHub – SCIR-SC-Qiaoban-Team/FreeEvalLM
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
- Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [51.3]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (Thu, 20 Mar 2025 17:59:38 GMT) - overthinkingの防止、効率的な推論に関するサーベイ
- リポジトリはGitHub – Eclipsess/Awesome-Efficient-Reasoning-LLMs
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
- The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.3]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。 本稿では, LRMにおける過度な考察を紹介し, 分析する。 解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文 参考訳(メタデータ) (Wed, 12 Feb 2025 09:23:26 GMT) - 「Our findings demonstrate a strong correlation between overthinking and task failure rates, with reasoning models showing particularly high vulnerability to this phenomenon compared to their non-reasoning counterparts.」は難しい問題に対してはそうなんじゃないかと思わなくもないが、「Simple selection of lower overthinking score solutions provides significant improvements」は面白い。
- リポジトリはGitHub – AlexCuadron/Overthinking: Systematic evaluation framework that automatically rates overthinking behavior in large language models.
OVERTHINKING: Slowdown Attacks on Reasoning LLMs
- OVERTHINKING: Slowdown Attacks on Reasoning LLMs [41.7]
OVERTHINK攻撃は、推論モデルを操作するサードパーティアプリケーションのコストを増幅する可能性がある。 我々は、クローズド(OpenAI o1, o1-mini, o3-mini)とオープン(DeepSeek R1)の重み付けモデルを用いて、FreshQAおよびSQuADデータセットによる攻撃を評価した。
論文 参考訳(メタデータ) (Tue, 04 Feb 2025 18:12:41 GMT) - 推論効率を低下させるoverthinking攻撃、「Our experimental results show that OVERTHINK significantly disrupts reasoning efficiency, with attacks on the o1 model increasing reasoning tokens up to 18× and over 10× on DeepSeek-R1.」とのこと。
- 「Our attack contains three key stages: (1) picking a decoy problem that results in a large number of reasoning tokens, but won’t trigger safety filters; (2) integrating selected decoys into a compromised source (e g , a wiki page) by either modifying the problem to fit the context (context-aware) or by injecting a general template (context-agnostic), and, (3) optimizing the decoy tasks using an in-context learning genetic (ICL-Genetic) algorithm to select contexts with decoys that provide highest reasoning tokens and maintain stealthiness of the answers to the user.」というアプローチ。計算負荷の高い正規表現を使うDoSっぽいと思ってしまい、有効な攻撃になりえそう。。。
「In rare cases, R1 can get stuck “thinking forever”.」と記載がある論文を思い出した。
- PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models [43.2]
一般知識のみを必要とするNPRサンデーパズルチャレンジに基づくベンチマークを提案する。 私たちの研究は、既存のベンチマークでは明らかでない機能ギャップを明らかにしています。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 18:10:38 GMT)
Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization
- Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization [48.6]
本研究では,モデルが推論予算の制約に対して実用性として定式化することで,推論予算を認識できるようにする手法を提案する。 簡単に言えば、IBPOを通じて微調整されたモデルは、クエリの難しさを理解し、より難しいものに推論予算を割り当てる。 これらの改善は、同じ予算の下での自己整合性(self-consistency)の約2ドルである。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 20:20:48 GMT) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning – arXiv最新論文の紹介に近いモチベーションと思われる推論予算を気にするフレームワークの提案。「In this work, we propose a way to allow models to be aware of inference budgets by formulating it as utility maximization with respect to an inference budget constraint, hence naming our algorithm Inference Budget-Constrained Policy Optimization (IBPO).」
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
- O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。 私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (Wed, 22 Jan 2025 01:35:11 GMT) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs – arXiv最新論文の紹介でもあったが、やりすぎなくらいトークンを消費することを防ぐLength Harmonizing Fine-Tuning (O1-Pruner)の提案、最適化の目標について、短いシーケンスを評価するような設計にしているよう。
- リポジトリはGitHub – StarDewXXX/O1-Pruner: Official repository for paper: O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
- Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.4]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。 本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。 精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (Mon, 30 Dec 2024 18:55:12 GMT) - 「This paper presents the first comprehensive study on the prevalent issue of overthinking in these models, where excessive computational resources are allocated for simple problems with minimal benefit.」とoverthinkingに焦点を当てた興味深い論文。