- A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.6]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。 懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。 この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文 参考訳(メタデータ) (Thu, 27 Mar 2025 15:36:30 GMT) - 「In this survey, we provide a comprehensive overview of recent efforts aimed at improving reasoning efficiency in LRMs, with a particular focus on the unique challenges that arise in this new paradigm.」というサーベイ。Fugu-MT 論文翻訳(概要): Stop Overthinking: A Survey on Efficient Reasoning for Large Language Modelsでも思ったが新たな手法→新たな課題→包括的サーベイという流れが極めて速い。
- リポジトリはGitHub – XiaoYee/Awesome_Efficient_LRM_Reasoning: A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond
タグ: slow-thinking
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
- Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond [14.4]
私たちはまず、長いCOT能力を欠いたモデルから始まる、長いCOTモデルをスクラッチからトレーニングすることに重点を置いています。 Qwen2.5-32B-Instructから2段階のSFTとセミオン・ポリティクスDPOからなるカリキュラムトレーニングレシピを用いて、我々のモデルであるLight-R1-32Bをトレーニングする。 AIME24と25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは32BモデルとDeepSeek-R1-Distill-Llama-70Bを抜いた。
論文 参考訳(メタデータ) (Thu, 13 Mar 2025 15:29:22 GMT) - 2ステージのSFT+DPO Optimization(+ model merge)で構築したモデル。「High-Quality Data is All You Need」の通りデータセット側のパイプラインも凝っている。他の研究成果でも近いことが指摘されているが「Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains.」は興味深い。
- リポジトリはGitHub – Qihoo360/Light-R1
An Empirical Study on Eliciting and Improving R1-like Reasoning Models
- An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.5]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。 我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。 また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (Thu, 06 Mar 2025 15:34:27 GMT) - 様々な研究機関が取り組むR1 like(o1 like)なモデル開発のテクニカルレポート。「By effectively utilizing tool manipulation, STILL-3-TOOL-32B achieves an impressive accuracy of 86.67 (greedy search) on AIME 2024. Remarkably, this ability can be activated with only a small number of high-quality training instances 」というのは面白く、ツールの利用にも拡張が進みつつあるよう。
- リポジトリはGitHub – RUCAIBox/Slow_Thinking_with_LLMs: A series of technical report on Slow Thinking with LLM
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning
- Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.5]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。 より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (Tue, 25 Feb 2025 10:48:05 GMT) - 十分なCoTを提供かつ長すぎるCoTが悪影響を与えないようにする「Thinking-OPtimal Scaling strategy (TOPS) that allows LLMs to decide by themselves how many tokens are needed to solve a given problem.」の提案
- 「Format Imitation enables the base model to learn how to adopt different levels of reasoning effort ei to perform System-2 thinking, using a small set of seed data. Reasoning Effort-Conditioned Generation requires the model to apply System-2 thinking to a large set of problems under different reasoning efforts. Self-Improvement select the shortest correct response for each problem among all responses to fine-tune the base model to achieve thinking-optimal test-time scaling.」という3ステージ構成。
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights
- Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights [49.4]
本稿では,大規模言語モデル(LLM)の複雑な課題解決における推論と計画能力について検討する。 近年の推論時間技術の発展は,LLM推論を追加訓練なしで向上させる可能性を示している。 OpenAIのo1モデルは、マルチステップ推論と検証の新たな使用を通じて、有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (Tue, 18 Feb 2025 04:11:29 GMT) - 流行りのInference-time computationについての検証。「Language models rely on retrieval rather than true understanding. Despite advancements in reasoning abilities with LRMs such as O1 and O1-Mini, they still appear to be pattern matching rather than genuine reasoning.」というのが興味深かった。
- リポジトリはGitHub – divelab/Sys2Bench: Sys2Bench is a benchmarking suite designed to evaluate reasoning and planning capabilities of large language models across algorithmic, logical, arithmetic, and common-sense reasoning tasks.
s1: Simple test-time scaling
- s1: Simple test-time scaling [148.4]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。 テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 16:31:30 GMT) - 「We show that SFT on only 1,000 examples suffices to build a competitive reasoning model matching o1-preview and produces a model that lies on the pareto frontier 」という報告。「First, we curate a small dataset s1K of 1,000 questions paired with reasoning traces relying on three criteria we validate through ablations: difficulty, diversity, and quality. Second, we develop budget forcing to control test-time compute by forcefully terminating the model’s thinking process or lengthening it by appending “Wait” multiple times to the model’s generation when it tries to end.」とWaitを使うのが特徴的(Think before you speak: Training Language Models With Pause Tokens – arXiv最新論文の紹介を思い出す)
- リポジトリはGitHub – simplescaling/s1: s1: Simple test-time scaling
Test-time Computing: from System-1 Thinking to System-2 Thinking / Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
- Test-time Computing: from System-1 Thinking to System-2 Thinking [28.1]
テストタイムコンピューティングの概念をSystem-1モデルに遡る。 システム1モデルからシステム2モデルへの移行において,テストタイムコンピューティングが果たす重要な役割を強調した。
論文 参考訳(メタデータ) (Sun, 05 Jan 2025 10:24:20 GMT) - test time computing、o1的動作、slow-thinkingといったもののサーベイ。
- 凄く参考になる内容ではあるのだが、カンファレンスすらも待っていられないスピード感に驚きというのが正直な感想。
- リポジトリはGitHub – Dereck0602/Awesome_Test_Time_LLMs
- Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though [44.2]
我々は,特定のCoTに着くために必要な基礎的推論を明示的にモデル化することにより,CoTを拡張したMeta-CoT(Meta-CoT)という新しいフレームワークを提案する。 本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
論文 参考訳(メタデータ) (Wed, 08 Jan 2025 18:42:48 GMT) - 上記にも関連する内容でMetaCoTの提案。検討過程が詳細で参考になる。
下記でも思ったがキャッチアップしよう、さらに超えていこうという動きが本当に速い。
- Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (Wed, 18 Dec 2024 18:24:47 GMT)
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM
- Virgo: A Preliminary Exploration on Reproducing o1-like MLLM [89.5]
スロー思考推論システムは、推論中の思考時間をスケールすることで、広く注目を集めている。 マルチモーダル大規模言語モデル(MLLM)への適応にも関心が高まっている。 本稿では,少量のテキスト長文思考データを用いて,有能なMLLMを微調整することで,簡単なアプローチを探索する。 自然言語で表現されたこれらの長文推論プロセスは,MLLMに効果的に転送できることがわかった。
論文 参考訳(メタデータ) (Fri, 03 Jan 2025 17:14:16 GMT) - o1-likeな推論に時間をかけるアプローチがMLLMにおいても有効であるとの報告。それはそうなんだろうと思うが、猛追という感じ。
- リポジトリはGitHub – RUCAIBox/Virgo: Official code of *Virgo: A Preliminary Exploration on Reproducing o1-like MLLM*
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
- rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking [15.4]
本稿では,小型言語モデル (SLM) が OpenAI o1 の算術的推論能力に匹敵するか,超越するかを示すために rStar-Math を提案する。 我々はモンテカルロ木探索(MCTS)を通して「深層思考」を実践し,SLMに基づくプロセス報酬モデルによるテスト時間探索を行う。
論文 参考訳(メタデータ) (Wed, 08 Jan 2025 14:12:57 GMT) - 「In this work, we present rStar-Math, a self-evolved System 2 deep thinking approach that significantly boosts the math reasoning capabilities of small LLMs, achieving state-of-the-art OpenAI o1-level performance.」と流行りのアプローチ、self-evolvedという表現に未来を感じるとともに、比較的小規模なモデルでも高いスコアをとれていることが興味深い
- リポジトリはhttps://github.com/microsoft/rStar。現時点では404?
Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking
- Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking [124.7]
HaluSearchは、ツリー検索ベースのアルゴリズムを組み込んだ新しいフレームワークである。 テキスト生成をステップバイステップの推論プロセスとしてフレーム化する。 認知科学における二重プロセス理論に着想を得た階層的思考システムスイッチ機構を導入する。
論文 参考訳(メタデータ) (Thu, 02 Jan 2025 15:36:50 GMT) - 「We propose HaluSearch, which integrates tree search-based algorithms (e g , MCTS) to explicitly implement a slow thinking process during the inference stage of LLMs, fully exploiting their own internal knowledge to mitigate hallucinations in generated text.」、各ステップの報酬を評価するスタイル。「To facilitate self-evaluation, we trained the reward model using data synthesized by the HaluSearch framework to assess the degree of hallucinations and provide reward signals.」とのこと。「Additionally, to improve efficiency, we introduced a dynamic system switch mechanism, which utilizes a trained switch model to enable LLMs to adaptively alternate between fast and slow thinking modes at both the instance and step levels.」という機構を有することが特徴的で、overthinking対策としても有望そうな感じがする。
- 現時点での全部入り的なアプローチで面白い。