Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

  • Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
    効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。 我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。 我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
    論文  参考訳(メタデータ)   (Tue, 24 Dec 2024 10:07:51 GMT)
  • (o1自体は利用していないと言われているが)o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
  • リポジトリはGitHub – HJYao00/Mulberry

DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought 

  • DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought [89.5]
    DRT-o1は、長いチェーン・オブ・シークレットの成功をニューラルマシン翻訳(MT)にもたらす試みである。 まず、既存の文献から模範文や比喩文を含む文を抽出し、その後、長い思考を通してこれらの文を翻訳する多エージェントフレームワークを開発する。 文献翻訳実験の結果, DRT-o1の有効性が示された。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 11:55:33 GMT)
  • Chain of thoughtの機械翻訳への応用、データを収集・マルチエージェントフレームワークでのデータ合成、fine tuningというアプローチ。14Bで124 GPU hoursは思ったよりも少ない印象だが、性能は大きく向上している。
  • プロジェクトサイトはGitHub – krystalan/DRT-o1: DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

OpenAI o3, Gemini 2.0 Flash Thinking, Genesis, Modern BERT

先週の大きなニュースはOpenAI o3でFrontierMath、ARC-AGI、SWE-benchなど難しいベンチマークで驚異的な性能を出している。12 Days of OpenAIは興味深い発表が多く、一方でAGIと言い切れるほどのものはなく、また、動画生成など分野によっては競合(GitHub – Tencent/Tencent-Hunyuan-Largeなど)の猛追も印象的だった。

12 Days of OpenAI | OpenAI
OpenAIの「12 Days」まとめ – ITmedia NEWS

GoogleもGemini 2.0 Flash Thinkingを発表(Gemini 2.0 Flash の思考モード  |  Gemini API  |  Google AI for Developers)、OpenAI o3の性能にも迫っていきそうな雰囲気を感じる。OSS界隈でもo3を目指す動きが盛り上がっていて期待できそう。

AGIを目指すとすると、推論(思考)性能はタスクによるとはいえかなり汎用的に人間(以上)レベルを達成できている感じで、今後は別機能(記憶とか自己改善とかEmbodiedとか)のインテグレーションがカギになりそう。Embodied AIに関連して先週はシミュレーション環境であるGenesisも話題になっていた。

華々しい発表ではなかったかもしれないがFinally, a Replacement for BERT: Introducing ModernBERTも重要な成果。decoder only全盛という感じではあるが、実務タスクを解く場合、BERT系列の選択肢は持っておきたいところ。

Amazon Nova, OpenAI o-1 pro, Gemini-Exp-1206, Llama 3.3

先週はLLM関連の話題が特に多い週だった。Amazon、OpenAI、Google、Metaが大きめのリリースを出しており、OpenAIはこれから発表を続けていくとのことでとても楽しみである。

各社の競争が非常に激しい。

Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search / LLaVA-CoT(LLaVA-o1)

  • Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.1]
    o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。 本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
    論文  参考訳(メタデータ)   (Mon, 18 Nov 2024 16:15:17 GMT)
  • o1-like reasoning systemsを実現するための検討、「In this paper, we present a preliminary exploration into enhancing the reasoning abilities of LLMs through reward-guided tree search algorithms.」とのこと。Marco-o1の報告、DeepSeek-R1の主張(A Chinese lab has released a ‘reasoning’ AI model to rival OpenAI’s o1 | TechCrunch)を含め、速攻で近いものの提案が始まる激しい競争環境。マルチモーダルでの有効性も報告(下記)されていて今後が楽しみ。
  • サーベイに近いかと思いきや実験結果などもあり参考になる。
  • LLaVA-o1: Let Vision Language Models Reason Step-by-Step [33.7]
    LLaVA-o1は、自律的な多段階推論を実現するために設計された新しいVLMである。 チェーン・オブ・シークレットのプロンプトとは異なり、LLaVA-o1は独立に要約、視覚的解釈、論理的推論、結論生成の逐次的な段階に関与する。 100kのトレーニングサンプルと単純な推論時間スケーリング法により、LLaVA-o1はベースモデルよりも8.9%性能が向上する。
    論文  参考訳(メタデータ)   (Fri, 15 Nov 2024 18:58:31 GMT)
  • リポジトリはGitHub – PKU-YuanGroup/LLaVA-CoT: LLaVA-CoT, a visual language model capable of spontaneous, systematic reasoning、「Based on recent feedback from social media platforms like X, we have decided to rename LLaVA-o1 to LLaVA-CoT.」とのこと。

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions 

  • Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions [40.2]
    Marco-o1は数学、物理学、コーディングなどの標準解を持つ分野に焦点を当てている。 o1モデルは、明確な標準が欠如し、報酬が定量化が難しい広い領域に効果的に一般化しますか? Marco-o1は、Chain-of-Thoughtファインチューニング、Monte Carlo Tree Search (MCTS)、リフレクションメカニズム、革新的な推論戦略によって実現されている。
    論文  参考訳(メタデータ)   (Thu, 21 Nov 2024 18:37:33 GMT)
  • 「Our Marco-o1 enhances the reasoning ability by integrating Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), and novel reasoning action strategies.」というo1ライクなモデル構築に関する報告。
  • Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
    OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:24:47 GMT)
  • 「In this paper, we present a roadmap for reproducing o1 from the perspective of reinforcement learning, emphasizing key components such as policy initialization, reward design, search, and learning.」という論文も。

Evaluation of OpenAI o1: Opportunities and Challenges of AGI / On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability

  • Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.1]
    o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。 このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。 総合的な結果は、人工知能への大きな進歩を示している。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 06:57:00 GMT)
  • OpenAI o1の詳細な検証。「Advanced Reasoning Capabilities: o1-preview demonstrated exceptional logical reasoning abilities in multiple fields, including high school mathematics, quantitative investing, and chip design」、「Domain-Specific Knowledge: The model exhibited impressive knowledge breadth across diverse fields such as medical genetics, radiology, anthropology, and geology.」、「It often performed at a level comparable to or exceeding that of graduate students or early-career professionals in these domains.」と高い行がされている。一方で「However, it still lacks the flexibility and adaptability of human experts in these fields.」、「It demonstrated the ability to capture complex expressions like irony and sarcasm, though it still struggles with very subtle emotional nuances.」という指摘も。
  • 関わっている方も多く他分野からの詳細な検証結果、非常に参考になる。
  • On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability [59.7]
    さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。 その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
    論文  参考訳(メタデータ)   (Mon, 30 Sep 2024 03:58:43 GMT)
  • 計画能力を対象としたo1の評価。GPT-4oと比べて優れているとのこと。
  • 1. Understanding the Problem、2. Following Constraints、3. State and Memory Management、4. Reasoning and GeneralizationでFindingsがまとめられている。いずれも強力だが、3.については「as problem complexity increased, the model’s state management became less reliable, particularly in tasks involving spatial reasoning across multiple dimensions.」、4.については「While o1-preview showed some promise in its generalization ability, particularly in structured environments like Grippers, its performance in more abstract tasks like Termes revealed substantial limitations. The model struggled with reasoning under conditions where actions and outcomes were less directly tied to the natural language representation of the task, highlighting an area for future improvements.」という指摘も
  • When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1 [20.1]
    o1 は OpenAI の新しいシステムで,従来の LLM と異なり,推論に最適化されている。 多くの場合、o1 は従来の LLM よりも大幅に優れており、特に共通タスクの稀な変種に対して大きな改善が加えられている。 しかし、o1は以前のシステムで観測したのと同じ定性的傾向を示している。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 17:50:19 GMT)
  • 「On many of the tasks we considered, o1 performed substantially better than the LLMs we had previously evaluated, with particularly strong results on rare variants of common tasks. However, it still qualitatively showed both of the central types of probability sensitivity discussed in McCoy et al (2023): sensitivity to output probability and sensitivity to task frequency.」という指摘。

OpenAI o1の評価、A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

OpenAI o1の評価結果が様々出ている。医療シナリオでの評価は特に興味深い。Gemini のアップデートもあり、Claude 3.5 Opusの噂もあり、商用モデルの競争も激しい。

Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more – Google Developers Blog (googleblog.com)

  • A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.7]
    OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。 本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
    論文  参考訳(メタデータ)   (Mon, 23 Sep 2024 17:59:43 GMT)
  • 「Our analysis of o1 suggests that the enhanced reasoning ability of LLMs may (significantly) benefit their capability to understand various medical instructions and reason through complex clinical scenarios.」との評価で、GPT-4oや3.5を上回る結果。
  • リポジトリはA Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? (ucsc-vlaa.github.io)

  • A Case Study of Web App Coding with OpenAI Reasoning Models [1.7]
    我々は,OpenAIの最新推論モデルであるo1-previewとo1-miniによるコーディングタスクのケーススタディを,他のフロンティアモデルと比較した。 o1モデルは、シングルタスクのベンチマークであるWebApp1Kに対して、SOTA結果を提供する。この結果、WebApp1K-Duoは、多くのタスクとテストケースを倍にする、より難しいベンチマークである。
    論文  参考訳(メタデータ)   (Thu, 19 Sep 2024 06:58:02 GMT)
  • WebApp1K(GitHub – onekq/WebApp1k: WebApp1k benchmark)に対してはo1がSoTAである一方で、より長い出力が要求されるWebApp1K-Duo(onekq-ai/WebApp1K-Duo-React · Datasets at Hugging Face)ではClaude 3.5 sonnetに負ける結果。
  • 「Specifically, the reasoning mechanism boosts performance when all expectations are captured, meanwhile exacerbates errors when key expectations are missed, potentially impacted by input lengths.」という指摘が興味深い。
  • WebApp1K Models Leaderboard – a Hugging Face Space by onekq-ai にLeader boardがある

  • Towards a Realistic Long-Term Benchmark for Open-Web Research Agents [0.2]
    ファイナンスやコンサルティングにおいて日常的に行われている,実世界のオープンウェブ研究課題に対するエージェントの評価を行った。 我々は、o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1 (405b)、GPT-4o-miniといったエージェントアーキテクチャを構築し、テストした。 LLM全体では、サブタスクをサブエージェントに委譲する機能を備えたReActアーキテクチャが最もよく機能した。
    論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 08:52:49 GMT)
  • 複数のベンチマークによる評価、総合的にo1は強力ではあるが、タスクや使い方による差異は大きそうに見える。
  • Can GPT-O1 Kill All Bugs? An Evaluation of GPT-Family LLMs on QuixBugs [2.2]
    この作業は、最近のGPT-o1モデルの公開リリースにインスパイアされている。 自動プログラム修復(APR)におけるGPTファミリーモデルの異なるバージョンの有効性の比較を行った。 O1の修復機能は、以前のGPTファミリーモデルよりも優れており、ベンチマークで40のバグを修正できた。
    論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 01:49:17 GMT)
  • バグ修正におけるo1の評価。GPT-4oを超えている。
  • リポジトリはGitHub – Tomsawyerhu/GPT-O1-on-QuixBugs: Evaluating GPT-o1 on QuixBugs benchmark.