Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities

  • Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.8]
    近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。 議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。 適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
    論文  参考訳(メタデータ)   (Sun, 23 Mar 2025 08:18:51 GMT)
  • 「The overall results of different LRMs under the Zero-Thinking, Summary-Thinking and Summary-Thinking-Plus mode for the evaluation of foundational capabilities.」の表5の結果が非常に興味深い。推論にパワーをかければよいというわけでもなく適応型戦略の重要性がよくわかる。
  • リポジトリはGitHub – SCIR-SC-Qiaoban-Team/FreeEvalLM

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models 

  • Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [51.3]
    大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
    論文  参考訳(メタデータ)   (Thu, 20 Mar 2025 17:59:38 GMT)
  • overthinkingの防止、効率的な推論に関するサーベイ
  • リポジトリはGitHub – Eclipsess/Awesome-Efficient-Reasoning-LLMs

The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

  • The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.3]
    大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。 本稿では, LRMにおける過度な考察を紹介し, 分析する。 解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
    論文  参考訳(メタデータ)   (Wed, 12 Feb 2025 09:23:26 GMT)
  • 「Our findings demonstrate a strong correlation between overthinking and task failure rates, with reasoning models showing particularly high vulnerability to this phenomenon compared to their non-reasoning counterparts.」は難しい問題に対してはそうなんじゃないかと思わなくもないが、「Simple selection of lower overthinking score solutions provides significant improvements」は面白い。
  • リポジトリはGitHub – AlexCuadron/Overthinking: Systematic evaluation framework that automatically rates overthinking behavior in large language models.

OVERTHINKING: Slowdown Attacks on Reasoning LLMs 

  • OVERTHINKING: Slowdown Attacks on Reasoning LLMs [41.7]
    OVERTHINK攻撃は、推論モデルを操作するサードパーティアプリケーションのコストを増幅する可能性がある。 我々は、クローズド(OpenAI o1, o1-mini, o3-mini)とオープン(DeepSeek R1)の重み付けモデルを用いて、FreshQAおよびSQuADデータセットによる攻撃を評価した。
    論文  参考訳(メタデータ)   (Tue, 04 Feb 2025 18:12:41 GMT)
  • 推論効率を低下させるoverthinking攻撃、「Our experimental results show that OVERTHINK significantly disrupts reasoning efficiency, with attacks on the o1 model increasing reasoning tokens up to 18× and over 10× on DeepSeek-R1.」とのこと。
  • 「Our attack contains three key stages: (1) picking a decoy problem that results in a large number of reasoning tokens, but won’t trigger safety filters; (2) integrating selected decoys into a compromised source (e g , a wiki page) by either modifying the problem to fit the context (context-aware) or by injecting a general template (context-agnostic), and, (3) optimizing the decoy tasks using an in-context learning genetic (ICL-Genetic) algorithm to select contexts with decoys that provide highest reasoning tokens and maintain stealthiness of the answers to the user.」というアプローチ。計算負荷の高い正規表現を使うDoSっぽいと思ってしまい、有効な攻撃になりえそう。。。

「In rare cases, R1 can get stuck “thinking forever”.」と記載がある論文を思い出した。

  • PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models [43.2]
    一般知識のみを必要とするNPRサンデーパズルチャレンジに基づくベンチマークを提案する。 私たちの研究は、既存のベンチマークでは明らかでない機能ギャップを明らかにしています。
    論文  参考訳(メタデータ)   (Mon, 03 Feb 2025 18:10:38 GMT)

Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization

  • Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization [48.6]
    本研究では,モデルが推論予算の制約に対して実用性として定式化することで,推論予算を認識できるようにする手法を提案する。 簡単に言えば、IBPOを通じて微調整されたモデルは、クエリの難しさを理解し、より難しいものに推論予算を割り当てる。 これらの改善は、同じ予算の下での自己整合性(self-consistency)の約2ドルである。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 20:20:48 GMT)
  • O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning  – arXiv最新論文の紹介に近いモチベーションと思われる推論予算を気にするフレームワークの提案。「In this work, we propose a way to allow models to be aware of inference budgets by formulating it as utility maximization with respect to an inference budget constraint, hence naming our algorithm Inference Budget-Constrained Policy Optimization (IBPO).」

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning 

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs 

  • Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.4]
    o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。 本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。 精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
    論文  参考訳(メタデータ)   (Mon, 30 Dec 2024 18:55:12 GMT)
  • 「This paper presents the first comprehensive study on the prevalent issue of overthinking in these models, where excessive computational resources are allocated for simple problems with minimal benefit.」とoverthinkingに焦点を当てた興味深い論文。