Gemini 2.0: Flash, Flash-Lite and Pro, OpenAI deep research

毎週様々なニュースが発表されるが、先週はGoogleのGemini 2.0シリーズのニュースが大きかった。特にFlash Liteはdeepseek と競争的な価格のAPIであり価格競争の面でも大きなニュースだった。Gemini 2.0: Flash, Flash-Lite and Pro – Google Developers BlogXユーザーのswyx 🔜 @aidotEngineer NYCさん: 「With Gemini 2.0 GA pricing/benchs, it’s official: @GoogleDeepMind has the Mandate of Heaven. https://t.co/pfOlxb57Yx」 / X

OpenAIはDeep researchを発表、これもPerplexityなど競合するサービスはあるもののOpenAI自ら発表したこと、性能が高いことなどもあって大きな話題になった。Introducing deep research | OpenAI

APIは強烈な価格競争が起きていて、OpenAIもアプリレイヤで戦わざるを得ないのか、それとも大きな目標に必要な動きなのかなど詳細は不明だが、LLMのコスパ向上、便利なアプリケーションの登場はユーザサイドにとってはありがたい。(一方でスタートアップにとっては…)

s1: Simple test-time scaling

  • s1: Simple test-time scaling [148.4]
    テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。 テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
    論文  参考訳(メタデータ)   (Mon, 03 Feb 2025 16:31:30 GMT)
  • 「We show that SFT on only 1,000 examples suffices to build a competitive reasoning model matching o1-preview and produces a model that lies on the pareto frontier 」という報告。「First, we curate a small dataset s1K of 1,000 questions paired with reasoning traces relying on three criteria we validate through ablations: difficulty, diversity, and quality. Second, we develop budget forcing to control test-time compute by forcefully terminating the model’s thinking process or lengthening it by appending “Wait” multiple times to the model’s generation when it tries to end.」とWaitを使うのが特徴的(Think before you speak: Training Language Models With Pause Tokens – arXiv最新論文の紹介を思い出す)
  • リポジトリはGitHub – simplescaling/s1: s1: Simple test-time scaling

o3-mini vs DeepSeek-R1: Which One is Safer? 

  • o3-mini vs DeepSeek-R1: Which One is Safer? [6.1]
    DeepSeek-R1はOpenAIのo3-miniと比べて非常に安全ではない。 DeepSeek-R1は、実行されたプロンプトの11.98%に対して安全ではないと答えたが、o3-miniは1.19%だった。
    論文  参考訳(メタデータ)   (Thu, 30 Jan 2025 15:45:56 GMT)
  • Deepseek R1とOpenAI o3-miniの安全性評価。既存フレームワークを使っているとはいえ、すごいスピード間での発表。(「The team conducting the study was part of the early access safety testing program of OpenAI: https://openai.com/index/ early-access-for-safety-testing/」との脚注はある)
  • 結論としては「Our results suggests that OpenAI’s o3-mini LLM is a much safer model than DeepSeek-R1, which answered unsafely to almost 12% of the executed unsafe prompts.」とのこと。

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

  • UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.2]
    本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 17:48:10 GMT)
  • GUIエージェント、UI-TARSの提案、様々なタスクでSOTAを主張。「UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for contextaware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines.」とやれることは盛り込んだ感がすごい。
  • リポジトリはGitHub – bytedance/UI-TARS

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning 

Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

  • Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.9]
    CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。 実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
    論文  参考訳(メタデータ)   (Sun, 19 Jan 2025 16:53:26 GMT)
  • 「we introduce Chain-of-Reasoning (CoR), a novel unified framework that integrates multiple reasoning paradigms—Natural Language Reasoning (NLR), Algorithmic Reasoning (AR), and Symbolic Reasoning (SR)—to enable synergistic collaboration.」とのこと。LRMとして構築しているアプローチだが、Agenticに使った場合との性能差をしりたいところ。

Deepseek R1、Sky-T1、TinyZero、Kimi k1.5

先週も大きなニュースが多かった。特にDeepSeek R1は非常に高い性能のLarge Reasoning Modelであり、しかも、オープンなモデルであることが衝撃的だった。Deepseek R1 Zeroは強化学習によって性能を上げていることも特徴的である。Kimi k1.5も近い発想で構築されたモデルで強化学習の有効性を示しているように見える。

DeepSeek R1の過程で構築したデータを用いQwenやLlamaを強化したモデルも大きく性能を上げているのが驚き。蒸留が許可されているライセンスであり、合成データを構築する元モデルとしても有力そう。

o1ライクなオープンモデルとしてはSky-T1: Train your own O1 preview model within $450GitHub – Jiayi-Pan/TinyZeroXユーザーのJiayi Panさん: 「We reproduced DeepSeek R1-Zero in the CountDown game, and it just works Through RL, the 3B base LM develops self-verification and search abilities all on its own You can experience the Ahah moment yourself for < $30 Code: https://t.co/B2IsN1PrXV Here’s what we learned 🧵 https://t.co/43BVYMmS8X」 / X)も興味深い。

それ以外にもOpenAI Operator(Introducing Operator research preview | OpenAI)はGUIエージェントの萌芽を感じさせる。

オープンモデルの盛り上がりの中、OpenAIがLLMコアだけではなく周辺領域に手を出そうとしているようにも見えて面白い。

  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.2]
    第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。 DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。 DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
    論文  参考訳(メタデータ)   (Wed, 22 Jan 2025 15:19:35 GMT)
  • Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2]
    我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。 長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。 本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
    論文  参考訳(メタデータ)   (Wed, 22 Jan 2025 02:48:14 GMT)

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

  • Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.1]
    大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。 最近の研究は、LLMがテスト時間推論中により多くのトークンで”考える”ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
    論文  参考訳(メタデータ)   (Thu, 16 Jan 2025 17:37:58 GMT)
  • OpenAI o1ライクなモデル、Large Reasoning Modelsのサーベイ。「We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling.」とある通り包括的な内容。
  • 下記でも思ったが本当に進展が速い
  • O1 Replication Journey — Part 3: Inference-time Scaling for Medical Reasoning [27.8]
    この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。 500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
    論文  参考訳(メタデータ)   (Sat, 11 Jan 2025 07:10:23 GMT)
  • プロジェクトサイトはGitHub – SPIRAL-MED/Ophiuchus

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs 

  • LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0]
    大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。 マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。 第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。 第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 18:59:51 GMT)
  • マルチステップなVisual reasoningタスクのベンチマークVisual Reasoning-Chain (VRCBench)の提案とcurriculum learningを通してLlama-3.2-11B-Vision-Instruct を強化したモデルの構築。omkarthawakar/LlamaV-o1 · Hugging Face
  • 商用モデルに近い性能を発揮。
  • プロジェクトサイトはLlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Test-time Computing: from System-1 Thinking to System-2 Thinking  / Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

  • Test-time Computing: from System-1 Thinking to System-2 Thinking [28.1]
    テストタイムコンピューティングの概念をSystem-1モデルに遡る。 システム1モデルからシステム2モデルへの移行において,テストタイムコンピューティングが果たす重要な役割を強調した。
    論文  参考訳(メタデータ)   (Sun, 05 Jan 2025 10:24:20 GMT)
  • test time computing、o1的動作、slow-thinkingといったもののサーベイ。
  • 凄く参考になる内容ではあるのだが、カンファレンスすらも待っていられないスピード感に驚きというのが正直な感想。
  • リポジトリはGitHub – Dereck0602/Awesome_Test_Time_LLMs
  • Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though [44.2]
    我々は,特定のCoTに着くために必要な基礎的推論を明示的にモデル化することにより,CoTを拡張したMeta-CoT(Meta-CoT)という新しいフレームワークを提案する。 本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
    論文  参考訳(メタデータ)   (Wed, 08 Jan 2025 18:42:48 GMT)
  • 上記にも関連する内容でMetaCoTの提案。検討過程が詳細で参考になる。

下記でも思ったがキャッチアップしよう、さらに超えていこうという動きが本当に速い。

  • Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.9]
    OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。 本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
    論文  参考訳(メタデータ)   (Wed, 18 Dec 2024 18:24:47 GMT)