Virgo: A Preliminary Exploration on Reproducing o1-like MLLM 

  • Virgo: A Preliminary Exploration on Reproducing o1-like MLLM [89.5]
    スロー思考推論システムは、推論中の思考時間をスケールすることで、広く注目を集めている。 マルチモーダル大規模言語モデル(MLLM)への適応にも関心が高まっている。 本稿では,少量のテキスト長文思考データを用いて,有能なMLLMを微調整することで,簡単なアプローチを探索する。 自然言語で表現されたこれらの長文推論プロセスは,MLLMに効果的に転送できることがわかった。
    論文  参考訳(メタデータ)   (Fri, 03 Jan 2025 17:14:16 GMT)
  • o1-likeな推論に時間をかけるアプローチがMLLMにおいても有効であるとの報告。それはそうなんだろうと思うが、猛追という感じ。
  • リポジトリはGitHub – RUCAIBox/Virgo: Official code of *Virgo: A Preliminary Exploration on Reproducing o1-like MLLM*

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking 

  • rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking [15.4]
    本稿では,小型言語モデル (SLM) が OpenAI o1 の算術的推論能力に匹敵するか,超越するかを示すために rStar-Math を提案する。 我々はモンテカルロ木探索(MCTS)を通して「深層思考」を実践し,SLMに基づくプロセス報酬モデルによるテスト時間探索を行う。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 14:12:57 GMT)
  • 「In this work, we present rStar-Math, a self-evolved System 2 deep thinking approach that significantly boosts the math reasoning capabilities of small LLMs, achieving state-of-the-art OpenAI o1-level performance.」と流行りのアプローチ、self-evolvedという表現に未来を感じるとともに、比較的小規模なモデルでも高いスコアをとれていることが興味深い
  • リポジトリはhttps://github.com/microsoft/rStar。現時点では404?

Search-o1: Agentic Search-Enhanced Large Reasoning Models

  • Search-o1: Agentic Search-Enhanced Large Reasoning Models [24.2]
    OpenAI-o1のような大きな推論モデル(LRM)は、大規模な強化学習を通じて、大きなステップワイズ推論能力を実証している。 エージェント検索拡張生成(RAG)機構とReason-in-Documentsモジュールを併用し,LRMを強化するフレームワークである textbfSearch-o1 を紹介する。
    論文  参考訳(メタデータ)   (Thu, 09 Jan 2025 16:48:17 GMT)
  • RAG + Large Rrasoning Modelなフレームワークの提案。Agenticなアプローチに見えなくもないが、「(a) Direct reasoning without retrieval often results in inaccuracies due to missing knowledge. (b) Our agentic retrieval-augmented reasoning approach improves knowledge access but usually returns lengthy, redundant documents, disrupting coherent reasoning. (c) Our Search-o1 integrates concise and accurate retrieved knowledge seamlessly into the reasoning process, enabling precise and coherent problem-solving.」とReason-in-Documentsを用いLRMと別の処理として推論の流れに沿った情報を選択・要約してLRMに組み込む有効性を主張している。
  • リポジトリはSearch-o1: Agentic Search-Enhanced Large Reasoning Models

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs 

  • Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.4]
    o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。 本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。 精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
    論文  参考訳(メタデータ)   (Mon, 30 Dec 2024 18:55:12 GMT)
  • 「This paper presents the first comprehensive study on the prevalent issue of overthinking in these models, where excessive computational resources are allocated for simple problems with minimal benefit.」とoverthinkingに焦点を当てた興味深い論文。

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

  • Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
    効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。 我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。 我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
    論文  参考訳(メタデータ)   (Tue, 24 Dec 2024 10:07:51 GMT)
  • (o1自体は利用していないと言われているが)o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
  • リポジトリはGitHub – HJYao00/Mulberry

DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought 

  • DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought [89.5]
    DRT-o1は、長いチェーン・オブ・シークレットの成功をニューラルマシン翻訳(MT)にもたらす試みである。 まず、既存の文献から模範文や比喩文を含む文を抽出し、その後、長い思考を通してこれらの文を翻訳する多エージェントフレームワークを開発する。 文献翻訳実験の結果, DRT-o1の有効性が示された。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 11:55:33 GMT)
  • Chain of thoughtの機械翻訳への応用、データを収集・マルチエージェントフレームワークでのデータ合成、fine tuningというアプローチ。14Bで124 GPU hoursは思ったよりも少ない印象だが、性能は大きく向上している。
  • プロジェクトサイトはGitHub – krystalan/DRT-o1: DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

OpenAI o3, Gemini 2.0 Flash Thinking, Genesis, Modern BERT

先週の大きなニュースはOpenAI o3でFrontierMath、ARC-AGI、SWE-benchなど難しいベンチマークで驚異的な性能を出している。12 Days of OpenAIは興味深い発表が多く、一方でAGIと言い切れるほどのものはなく、また、動画生成など分野によっては競合(GitHub – Tencent/Tencent-Hunyuan-Largeなど)の猛追も印象的だった。

12 Days of OpenAI | OpenAI
OpenAIの「12 Days」まとめ – ITmedia NEWS

GoogleもGemini 2.0 Flash Thinkingを発表(Gemini 2.0 Flash の思考モード  |  Gemini API  |  Google AI for Developers)、OpenAI o3の性能にも迫っていきそうな雰囲気を感じる。OSS界隈でもo3を目指す動きが盛り上がっていて期待できそう。

AGIを目指すとすると、推論(思考)性能はタスクによるとはいえかなり汎用的に人間(以上)レベルを達成できている感じで、今後は別機能(記憶とか自己改善とかEmbodiedとか)のインテグレーションがカギになりそう。Embodied AIに関連して先週はシミュレーション環境であるGenesisも話題になっていた。

華々しい発表ではなかったかもしれないがFinally, a Replacement for BERT: Introducing ModernBERTも重要な成果。decoder only全盛という感じではあるが、実務タスクを解く場合、BERT系列の選択肢は持っておきたいところ。

Amazon Nova, OpenAI o-1 pro, Gemini-Exp-1206, Llama 3.3

先週はLLM関連の話題が特に多い週だった。Amazon、OpenAI、Google、Metaが大きめのリリースを出しており、OpenAIはこれから発表を続けていくとのことでとても楽しみである。

各社の競争が非常に激しい。

Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search / LLaVA-CoT(LLaVA-o1)

  • Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.1]
    o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。 本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
    論文  参考訳(メタデータ)   (Mon, 18 Nov 2024 16:15:17 GMT)
  • o1-like reasoning systemsを実現するための検討、「In this paper, we present a preliminary exploration into enhancing the reasoning abilities of LLMs through reward-guided tree search algorithms.」とのこと。Marco-o1の報告、DeepSeek-R1の主張(A Chinese lab has released a ‘reasoning’ AI model to rival OpenAI’s o1 | TechCrunch)を含め、速攻で近いものの提案が始まる激しい競争環境。マルチモーダルでの有効性も報告(下記)されていて今後が楽しみ。
  • サーベイに近いかと思いきや実験結果などもあり参考になる。
  • LLaVA-o1: Let Vision Language Models Reason Step-by-Step [33.7]
    LLaVA-o1は、自律的な多段階推論を実現するために設計された新しいVLMである。 チェーン・オブ・シークレットのプロンプトとは異なり、LLaVA-o1は独立に要約、視覚的解釈、論理的推論、結論生成の逐次的な段階に関与する。 100kのトレーニングサンプルと単純な推論時間スケーリング法により、LLaVA-o1はベースモデルよりも8.9%性能が向上する。
    論文  参考訳(メタデータ)   (Fri, 15 Nov 2024 18:58:31 GMT)
  • リポジトリはGitHub – PKU-YuanGroup/LLaVA-CoT: LLaVA-CoT, a visual language model capable of spontaneous, systematic reasoning、「Based on recent feedback from social media platforms like X, we have decided to rename LLaVA-o1 to LLaVA-CoT.」とのこと。

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions 

  • Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions [40.2]
    Marco-o1は数学、物理学、コーディングなどの標準解を持つ分野に焦点を当てている。 o1モデルは、明確な標準が欠如し、報酬が定量化が難しい広い領域に効果的に一般化しますか? Marco-o1は、Chain-of-Thoughtファインチューニング、Monte Carlo Tree Search (MCTS)、リフレクションメカニズム、革新的な推論戦略によって実現されている。
    論文  参考訳(メタデータ)   (Thu, 21 Nov 2024 18:37:33 GMT)
  • 「Our Marco-o1 enhances the reasoning ability by integrating Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), and novel reasoning action strategies.」というo1ライクなモデル構築に関する報告。
  • Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
    OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:24:47 GMT)
  • 「In this paper, we present a roadmap for reproducing o1 from the perspective of reinforcement learning, emphasizing key components such as policy initialization, reward design, search, and learning.」という論文も。