Deepseek R1、Sky-T1、TinyZero、Kimi k1.5

先週も大きなニュースが多かった。特にDeepSeek R1は非常に高い性能のLarge Reasoning Modelであり、しかも、オープンなモデルであることが衝撃的だった。Deepseek R1 Zeroは強化学習によって性能を上げていることも特徴的である。Kimi k1.5も近い発想で構築されたモデルで強化学習の有効性を示しているように見える。

DeepSeek R1の過程で構築したデータを用いQwenやLlamaを強化したモデルも大きく性能を上げているのが驚き。蒸留が許可されているライセンスであり、合成データを構築する元モデルとしても有力そう。

o1ライクなオープンモデルとしてはSky-T1: Train your own O1 preview model within $450GitHub – Jiayi-Pan/TinyZeroXユーザーのJiayi Panさん: 「We reproduced DeepSeek R1-Zero in the CountDown game, and it just works Through RL, the 3B base LM develops self-verification and search abilities all on its own You can experience the Ahah moment yourself for < $30 Code: https://t.co/B2IsN1PrXV Here’s what we learned 🧵 https://t.co/43BVYMmS8X」 / X)も興味深い。

それ以外にもOpenAI Operator(Introducing Operator research preview | OpenAI)はGUIエージェントの萌芽を感じさせる。

オープンモデルの盛り上がりの中、OpenAIがLLMコアだけではなく周辺領域に手を出そうとしているようにも見えて面白い。

  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.2]
    第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。 DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。 DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
    論文  参考訳(メタデータ)   (Wed, 22 Jan 2025 15:19:35 GMT)
  • Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2]
    我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。 長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。 本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
    論文  参考訳(メタデータ)   (Wed, 22 Jan 2025 02:48:14 GMT)

LLMs Are In-Context Reinforcement Learners

  • LLMs Are In-Context Reinforcement Learners [30.2]
    大規模言語モデル(LLM)は、コンテキスト内教師あり学習(ICL)を通じて新しいタスクを学習することができる。 この研究は、この能力が文脈内強化学習(ICRL)にまで拡張されるかどうかを研究する。 本稿では、テスト時間計算の増加と計算バウンド近似により、この欠陥に対処するアルゴリズムを提案する。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 17:45:00 GMT)
  • 「ICRL is a natural combination of ICL and reinforcement learning (RL).Instead of constructing the LLM context from supervised input-output pairs, the LLM context is constructed using triplets consisting of input, model output prediction, and the corresponding rewards.」というスタイルのインコンテキスト強化学習の提案。ナイーブな実装がうまくいかないのが興味深い。「Its poor performance is due to its incapacity to explore the output space.」とのこと。
  • プロジェクトサイトはLLMs Are In-Context Reinforcement Learners (lil-lab.github.io)

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

  • Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.7]
    本手法はモンテカルロ木探索とLLMに基づく反射による自己再生シミュレーションにより品質フィードバックを収集する。 本手法は,従来の強化学習手法よりも優れた性能でエージェントを訓練する上で有効であることを示す。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 08:22:04 GMT)
  • 「 (1) reflection and idea generation step and (2) the strategy improvement step」を繰り返しながら自己改善していく手法の提案。有効そう。
  • リポジトリはStrategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search (llm-strategist.github.io)

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena

  • Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.7]
    AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。 Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。 ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 11:26:07 GMT)
  • ChatBot Arenaの評価を再現する環境をAIで実現、「This paper introduces Arena Learning, a simulated offline chatbot arena that utilizes AI LLMs to bypass the manual and time-intensive cost typically associated with preparing the arena battle data, while preserving the core advantages of the arena-based evaluation and training.」、「Furthermore, the model trained iteratively on synthetic data generated by Arena Learning exhibits significant performance improvements using various training strategies.」とのこと。
  • 自己改善、合成データ活用の文脈でも非常に興味深い。
  • AgentInstruct: Toward Generative Teaching with Agentic Flows [12.2]
    我々は、ポストトレーニングに合成データを使うこと、特に、他のモデルに新しいスキルや振る舞いを教えるために、強力なモデルでデータを作成することに重点を置いている。 本稿では,多種多様な高品質な合成データを自動生成するエージェントフレームワークであるAgentInstructを紹介する。 テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 21:01:12 GMT)
  • 上記とは異なりAgenticなデータ合成アプローチも有望。

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

  • Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [99.0]
    現在のAIアライメント手法は、人間が提供する実演や判断に依存している。 彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 15:12:38 GMT)
  • The Unreasonable Effectiveness of Easy Training Data for Hard Tasks – arXiv最新論文の紹介 (devneko.jp)でも取り上げられていた話だが、PRMs(process reward models)やOPRMs(Outcome & Process Reward Model)を用いるとさらに有効とのこと。
  • AGIやASIという話を聞くにこのような手法の重要性が高まっているように思う(一方で結論にある「This approach presents a promising direction for developing AI systems capable of surpassing human problem-solving capabilities」のように人間がEasy側に位置づけられるのは複雑な思いもある)
  • リポジトリはEdward-Sun/easy-to-hard (github.com)

XRL-Bench 

  • XRL-Bench: A Benchmark for Evaluating and Comparing Explainable Reinforcement Learning Techniques [36.3]
    強化学習(Reinforcement Learning, RL)は、様々な分野において大きな可能性を証明しているが、その意思決定プロセスを理解することは、現在進行中の課題である。 本稿では, 説明可能なAI(XAI)のサブフィールドである説明可能なRL(XRL)について述べる。 我々の焦点は状態記述技術であり、XRL法における重要な部分集合であり、エージェントの行動にいつでも影響を及ぼす要因を明らかにすることである。
    論文  参考訳(メタデータ)   (Tue, 20 Feb 2024 03:20:37 GMT)
  • 説明可能な強化学習のためのベンチマーク
  • リポジトリはfuxiAIlab/xrl-bench (github.com)

強化学習と拡散モデル

EUREKA:  Evolution-driven Universal REward Kit for Agent

  • Eureka: Human-Level Reward Design via Coding Large Language Models [126.0]
    大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。 LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。 Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 17:31:01 GMT)
  • LLMを用いた reward design algorithm の提案。性能は人間レベルとのことであり、「EUREKA can improve and benefit from human reward functions.」とのこと。強化学習を利用する場合に難しい部分をサポートできる可能性がある。
  • プロジェクトサイトはEureka | Human-Level Reward Design via Coding Large Language Models (eureka-research.github.io)

Dynalang

  • Learning to Model the World with Language [98.2]
    我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
    論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 17:57:49 GMT)
  • エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
  • プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)

Language Models Meet World Models

  • Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
    大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。 我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 00:35:38 GMT)
  • 世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ(VirtualHome)を用いてより広い情報を集めるアプローチで大変興味深い。
  • 重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors & elastic weight consolidationのEWC-LoRAという手法を用いているそう。