Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

  • Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.1]
    大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。 最近の研究は、LLMがテスト時間推論中により多くのトークンで”考える”ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
    論文  参考訳(メタデータ)   (Thu, 16 Jan 2025 17:37:58 GMT)
  • OpenAI o1ライクなモデル、Large Reasoning Modelsのサーベイ。「We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling.」とある通り包括的な内容。
  • 下記でも思ったが本当に進展が速い
  • O1 Replication Journey — Part 3: Inference-time Scaling for Medical Reasoning [27.8]
    この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。 500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
    論文  参考訳(メタデータ)   (Sat, 11 Jan 2025 07:10:23 GMT)
  • プロジェクトサイトはGitHub – SPIRAL-MED/Ophiuchus

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs 

  • LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0]
    大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。 マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。 第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。 第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 18:59:51 GMT)
  • マルチステップなVisual reasoningタスクのベンチマークVisual Reasoning-Chain (VRCBench)の提案とcurriculum learningを通してLlama-3.2-11B-Vision-Instruct を強化したモデルの構築。omkarthawakar/LlamaV-o1 · Hugging Face
  • 商用モデルに近い性能を発揮。
  • プロジェクトサイトはLlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Test-time Computing: from System-1 Thinking to System-2 Thinking  / Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

  • Test-time Computing: from System-1 Thinking to System-2 Thinking [28.1]
    テストタイムコンピューティングの概念をSystem-1モデルに遡る。 システム1モデルからシステム2モデルへの移行において,テストタイムコンピューティングが果たす重要な役割を強調した。
    論文  参考訳(メタデータ)   (Sun, 05 Jan 2025 10:24:20 GMT)
  • test time computing、o1的動作、slow-thinkingといったもののサーベイ。
  • 凄く参考になる内容ではあるのだが、カンファレンスすらも待っていられないスピード感に驚きというのが正直な感想。
  • リポジトリはGitHub – Dereck0602/Awesome_Test_Time_LLMs
  • Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though [44.2]
    我々は,特定のCoTに着くために必要な基礎的推論を明示的にモデル化することにより,CoTを拡張したMeta-CoT(Meta-CoT)という新しいフレームワークを提案する。 本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 18:42:48 GMT)
  • 上記にも関連する内容でMetaCoTの提案。検討過程が詳細で参考になる。

下記でも思ったがキャッチアップしよう、さらに超えていこうという動きが本当に速い。

  • Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
    OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:24:47 GMT)

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM 

  • Virgo: A Preliminary Exploration on Reproducing o1-like MLLM [89.5]
    スロー思考推論システムは、推論中の思考時間をスケールすることで、広く注目を集めている。 マルチモーダル大規模言語モデル(MLLM)への適応にも関心が高まっている。 本稿では,少量のテキスト長文思考データを用いて,有能なMLLMを微調整することで,簡単なアプローチを探索する。 自然言語で表現されたこれらの長文推論プロセスは,MLLMに効果的に転送できることがわかった。
    論文  参考訳(メタデータ)   (Fri, 03 Jan 2025 17:14:16 GMT)
  • o1-likeな推論に時間をかけるアプローチがMLLMにおいても有効であるとの報告。それはそうなんだろうと思うが、猛追という感じ。
  • リポジトリはGitHub – RUCAIBox/Virgo: Official code of *Virgo: A Preliminary Exploration on Reproducing o1-like MLLM*

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking 

  • rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking [15.4]
    本稿では,小型言語モデル (SLM) が OpenAI o1 の算術的推論能力に匹敵するか,超越するかを示すために rStar-Math を提案する。 我々はモンテカルロ木探索(MCTS)を通して「深層思考」を実践し,SLMに基づくプロセス報酬モデルによるテスト時間探索を行う。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 14:12:57 GMT)
  • 「In this work, we present rStar-Math, a self-evolved System 2 deep thinking approach that significantly boosts the math reasoning capabilities of small LLMs, achieving state-of-the-art OpenAI o1-level performance.」と流行りのアプローチ、self-evolvedという表現に未来を感じるとともに、比較的小規模なモデルでも高いスコアをとれていることが興味深い
  • リポジトリはhttps://github.com/microsoft/rStar。現時点では404?

Search-o1: Agentic Search-Enhanced Large Reasoning Models

  • Search-o1: Agentic Search-Enhanced Large Reasoning Models [24.2]
    OpenAI-o1のような大きな推論モデル(LRM)は、大規模な強化学習を通じて、大きなステップワイズ推論能力を実証している。 エージェント検索拡張生成(RAG)機構とReason-in-Documentsモジュールを併用し,LRMを強化するフレームワークである textbfSearch-o1 を紹介する。
    論文  参考訳(メタデータ)   (Thu, 09 Jan 2025 16:48:17 GMT)
  • RAG + Large Rrasoning Modelなフレームワークの提案。Agenticなアプローチに見えなくもないが、「(a) Direct reasoning without retrieval often results in inaccuracies due to missing knowledge. (b) Our agentic retrieval-augmented reasoning approach improves knowledge access but usually returns lengthy, redundant documents, disrupting coherent reasoning. (c) Our Search-o1 integrates concise and accurate retrieved knowledge seamlessly into the reasoning process, enabling precise and coherent problem-solving.」とReason-in-Documentsを用いLRMと別の処理として推論の流れに沿った情報を選択・要約してLRMに組み込む有効性を主張している。
  • リポジトリはSearch-o1: Agentic Search-Enhanced Large Reasoning Models

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs 

  • Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.4]
    o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。 本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。 精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
    論文  参考訳(メタデータ)   (Mon, 30 Dec 2024 18:55:12 GMT)
  • 「This paper presents the first comprehensive study on the prevalent issue of overthinking in these models, where excessive computational resources are allocated for simple problems with minimal benefit.」とoverthinkingに焦点を当てた興味深い論文。

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

  • Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
    効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。 我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。 我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
    論文  参考訳(メタデータ)   (Tue, 24 Dec 2024 10:07:51 GMT)
  • (o1自体は利用していないと言われているが)o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
  • リポジトリはGitHub – HJYao00/Mulberry

DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought 

  • DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought [89.5]
    DRT-o1は、長いチェーン・オブ・シークレットの成功をニューラルマシン翻訳(MT)にもたらす試みである。 まず、既存の文献から模範文や比喩文を含む文を抽出し、その後、長い思考を通してこれらの文を翻訳する多エージェントフレームワークを開発する。 文献翻訳実験の結果, DRT-o1の有効性が示された。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 11:55:33 GMT)
  • Chain of thoughtの機械翻訳への応用、データを収集・マルチエージェントフレームワークでのデータ合成、fine tuningというアプローチ。14Bで124 GPU hoursは思ったよりも少ない印象だが、性能は大きく向上している。
  • プロジェクトサイトはGitHub – krystalan/DRT-o1: DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

OpenAI o3, Gemini 2.0 Flash Thinking, Genesis, Modern BERT

先週の大きなニュースはOpenAI o3でFrontierMath、ARC-AGI、SWE-benchなど難しいベンチマークで驚異的な性能を出している。12 Days of OpenAIは興味深い発表が多く、一方でAGIと言い切れるほどのものはなく、また、動画生成など分野によっては競合(GitHub – Tencent/Tencent-Hunyuan-Largeなど)の猛追も印象的だった。

12 Days of OpenAI | OpenAI
OpenAIの「12 Days」まとめ – ITmedia NEWS

GoogleもGemini 2.0 Flash Thinkingを発表(Gemini 2.0 Flash の思考モード  |  Gemini API  |  Google AI for Developers)、OpenAI o3の性能にも迫っていきそうな雰囲気を感じる。OSS界隈でもo3を目指す動きが盛り上がっていて期待できそう。

AGIを目指すとすると、推論(思考)性能はタスクによるとはいえかなり汎用的に人間(以上)レベルを達成できている感じで、今後は別機能(記憶とか自己改善とかEmbodiedとか)のインテグレーションがカギになりそう。Embodied AIに関連して先週はシミュレーション環境であるGenesisも話題になっていた。

華々しい発表ではなかったかもしれないがFinally, a Replacement for BERT: Introducing ModernBERTも重要な成果。decoder only全盛という感じではあるが、実務タスクを解く場合、BERT系列の選択肢は持っておきたいところ。