Test-time Computing: from System-1 Thinking to System-2 Thinking  / Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

  • Test-time Computing: from System-1 Thinking to System-2 Thinking [28.1]
    テストタイムコンピューティングの概念をSystem-1モデルに遡る。 システム1モデルからシステム2モデルへの移行において,テストタイムコンピューティングが果たす重要な役割を強調した。
    論文  参考訳(メタデータ)   (Sun, 05 Jan 2025 10:24:20 GMT)
  • test time computing、o1的動作、slow-thinkingといったもののサーベイ。
  • 凄く参考になる内容ではあるのだが、カンファレンスすらも待っていられないスピード感に驚きというのが正直な感想。
  • リポジトリはGitHub – Dereck0602/Awesome_Test_Time_LLMs
  • Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though [44.2]
    我々は,特定のCoTに着くために必要な基礎的推論を明示的にモデル化することにより,CoTを拡張したMeta-CoT(Meta-CoT)という新しいフレームワークを提案する。 本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 18:42:48 GMT)
  • 上記にも関連する内容でMetaCoTの提案。検討過程が詳細で参考になる。

下記でも思ったがキャッチアップしよう、さらに超えていこうという動きが本当に速い。

  • Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
    OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:24:47 GMT)

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM 

  • Virgo: A Preliminary Exploration on Reproducing o1-like MLLM [89.5]
    スロー思考推論システムは、推論中の思考時間をスケールすることで、広く注目を集めている。 マルチモーダル大規模言語モデル(MLLM)への適応にも関心が高まっている。 本稿では,少量のテキスト長文思考データを用いて,有能なMLLMを微調整することで,簡単なアプローチを探索する。 自然言語で表現されたこれらの長文推論プロセスは,MLLMに効果的に転送できることがわかった。
    論文  参考訳(メタデータ)   (Fri, 03 Jan 2025 17:14:16 GMT)
  • o1-likeな推論に時間をかけるアプローチがMLLMにおいても有効であるとの報告。それはそうなんだろうと思うが、猛追という感じ。
  • リポジトリはGitHub – RUCAIBox/Virgo: Official code of *Virgo: A Preliminary Exploration on Reproducing o1-like MLLM*

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking 

  • rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking [15.4]
    本稿では,小型言語モデル (SLM) が OpenAI o1 の算術的推論能力に匹敵するか,超越するかを示すために rStar-Math を提案する。 我々はモンテカルロ木探索(MCTS)を通して「深層思考」を実践し,SLMに基づくプロセス報酬モデルによるテスト時間探索を行う。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 14:12:57 GMT)
  • 「In this work, we present rStar-Math, a self-evolved System 2 deep thinking approach that significantly boosts the math reasoning capabilities of small LLMs, achieving state-of-the-art OpenAI o1-level performance.」と流行りのアプローチ、self-evolvedという表現に未来を感じるとともに、比較的小規模なモデルでも高いスコアをとれていることが興味深い
  • リポジトリはhttps://github.com/microsoft/rStar。現時点では404?

Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking

  • Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking [124.7]
    HaluSearchは、ツリー検索ベースのアルゴリズムを組み込んだ新しいフレームワークである。 テキスト生成をステップバイステップの推論プロセスとしてフレーム化する。 認知科学における二重プロセス理論に着想を得た階層的思考システムスイッチ機構を導入する。
    論文  参考訳(メタデータ)   (Thu, 02 Jan 2025 15:36:50 GMT)
  • 「We propose HaluSearch, which integrates tree search-based algorithms (e g , MCTS) to explicitly implement a slow thinking process during the inference stage of LLMs, fully exploiting their own internal knowledge to mitigate hallucinations in generated text.」、各ステップの報酬を評価するスタイル。「To facilitate self-evaluation, we trained the reward model using data synthesized by the HaluSearch framework to assess the degree of hallucinations and provide reward signals.」とのこと。「Additionally, to improve efficiency, we introduced a dynamic system switch mechanism, which utilizes a trained switch model to enable LLMs to adaptively alternate between fast and slow thinking modes at both the instance and step levels.」という機構を有することが特徴的で、overthinking対策としても有望そうな感じがする。
  • 現時点での全部入り的なアプローチで面白い。

Visual Agents as Fast and Slow Thinkers

  • Visual Agents as Fast and Slow Thinkers [88.7]
    本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モードを動的に選択するためにスイッチアダプタを使用し、異なるタスクの複雑さに対する問題解決アプローチを調整している。 モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
    論文  参考訳(メタデータ)   (Fri, 16 Aug 2024 17:44:02 GMT)
  • かの有名なFast and SlowをMLLMエージェントに適用。「the concepts of System 1 (fast, intuitive) and System 2 (slow, deliberate) thinking into visual agents, aiming to enhance their reasoning and decision-making capabilities.」というコンセプト
  • 効果があったとするが公平な比較になっているんだろうかという疑問がなくはない。