Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization

  • Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization [48.6]
    本研究では,モデルが推論予算の制約に対して実用性として定式化することで,推論予算を認識できるようにする手法を提案する。 簡単に言えば、IBPOを通じて微調整されたモデルは、クエリの難しさを理解し、より難しいものに推論予算を割り当てる。 これらの改善は、同じ予算の下での自己整合性(self-consistency)の約2ドルである。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 20:20:48 GMT)
  • O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning  – arXiv最新論文の紹介に近いモチベーションと思われる推論予算を気にするフレームワークの提案。「In this work, we propose a way to allow models to be aware of inference budgets by formulating it as utility maximization with respect to an inference budget constraint, hence naming our algorithm Inference Budget-Constrained Policy Optimization (IBPO).」

Generative Physical AI in Vision: A Survey