先週も大きなニュースが多かった。特にDeepSeek R1は非常に高い性能のLarge Reasoning Modelであり、しかも、オープンなモデルであることが衝撃的だった。Deepseek R1 Zeroは強化学習によって性能を上げていることも特徴的である。Kimi k1.5も近い発想で構築されたモデルで強化学習の有効性を示しているように見える。
DeepSeek R1の過程で構築したデータを用いQwenやLlamaを強化したモデルも大きく性能を上げているのが驚き。蒸留が許可されているライセンスであり、合成データを構築する元モデルとしても有力そう。
o1ライクなオープンモデルとしてはSky-T1: Train your own O1 preview model within $450やGitHub – Jiayi-Pan/TinyZero(XユーザーのJiayi Panさん: 「We reproduced DeepSeek R1-Zero in the CountDown game, and it just works Through RL, the 3B base LM develops self-verification and search abilities all on its own You can experience the Ahah moment yourself for < $30 Code: https://t.co/B2IsN1PrXV Here’s what we learned 🧵 https://t.co/43BVYMmS8X」 / X)も興味深い。
それ以外にもOpenAI Operator(Introducing Operator research preview | OpenAI)はGUIエージェントの萌芽を感じさせる。
オープンモデルの盛り上がりの中、OpenAIがLLMコアだけではなく周辺領域に手を出そうとしているようにも見えて面白い。
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.2]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。 DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。 DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (Wed, 22 Jan 2025 15:19:35 GMT)
- Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。 長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。 本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (Wed, 22 Jan 2025 02:48:14 GMT)