Deepseek R1、Sky-T1、TinyZero、Kimi k1.5

先週も大きなニュースが多かった。特にDeepSeek R1は非常に高い性能のLarge Reasoning Modelであり、しかも、オープンなモデルであることが衝撃的だった。Deepseek R1 Zeroは強化学習によって性能を上げていることも特徴的である。Kimi k1.5も近い発想で構築されたモデルで強化学習の有効性を示しているように見える。

DeepSeek R1の過程で構築したデータを用いQwenやLlamaを強化したモデルも大きく性能を上げているのが驚き。蒸留が許可されているライセンスであり、合成データを構築する元モデルとしても有力そう。

o1ライクなオープンモデルとしてはSky-T1: Train your own O1 preview model within $450GitHub – Jiayi-Pan/TinyZeroXユーザーのJiayi Panさん: 「We reproduced DeepSeek R1-Zero in the CountDown game, and it just works Through RL, the 3B base LM develops self-verification and search abilities all on its own You can experience the Ahah moment yourself for < $30 Code: https://t.co/B2IsN1PrXV Here’s what we learned 🧵 https://t.co/43BVYMmS8X」 / X)も興味深い。

それ以外にもOpenAI Operator(Introducing Operator research preview | OpenAI)はGUIエージェントの萌芽を感じさせる。

オープンモデルの盛り上がりの中、OpenAIがLLMコアだけではなく周辺領域に手を出そうとしているようにも見えて面白い。

  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.2]
    第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。 DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。 DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
    論文  参考訳(メタデータ)   (Wed, 22 Jan 2025 15:19:35 GMT)
  • Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2]
    我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。 長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。 本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
    論文  参考訳(メタデータ)   (Wed, 22 Jan 2025 02:48:14 GMT)

Generative Retrieval for Book search

  • Generative Retrieval for Book search [106.7]
    書籍検索のための効率的な生成検索フレームワークを提案する。 データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。 プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
    論文  参考訳(メタデータ)   (Sun, 19 Jan 2025 12:57:13 GMT)
  • 「We have introduced and evaluated GBS, a generative retrieval framework designed specifically for book search.」とある通り、業務に特化された検索フレームワークで問題の分割方針と取り扱いの方針が勉強になる。
  • この論文の図1は「Books mainly consist of three types of information: (1) metadata, which includes details like the title, author, and publisher; (2) the main text, which constitutes the core content of the book; and (3) the outline, which shows the hierarchical structure and relationships between the chapters and sections.」であるが、対象をどう見るかというのはLLM全盛の今においても、非常に重要。

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

  • Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.1]
    大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。 最近の研究は、LLMがテスト時間推論中により多くのトークンで”考える”ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
    論文  参考訳(メタデータ)   (Thu, 16 Jan 2025 17:37:58 GMT)
  • OpenAI o1ライクなモデル、Large Reasoning Modelsのサーベイ。「We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling.」とある通り包括的な内容。
  • 下記でも思ったが本当に進展が速い
  • O1 Replication Journey — Part 3: Inference-time Scaling for Medical Reasoning [27.8]
    この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。 500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
    論文  参考訳(メタデータ)   (Sat, 11 Jan 2025 07:10:23 GMT)
  • プロジェクトサイトはGitHub – SPIRAL-MED/Ophiuchus

IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems