Qwen2.5-Max, Janus-Pro, o3-mini, Mistral Small, Tulu 3 405B, Open R1, BAICHUAN-OMNI-1.5

Deepseek V3/R1関連の話題が盛り上がる中、先週も様々な話題があった。DeepseekからはマルチモーダルモデルJanus-Pro(GitHub – deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models)、AlibabaからはDeepseekに対抗するようなQwenの最大モデルの発表(Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen)が発表された。ロングコンテキス化に関する論文も出ている点にも要注目。

OpenAIからo3-mini(OpenAI o3-mini | OpenAI)が出てHumanity’s Last Examでo1やr1を超えたのは大きなニュースだった(若干誇大広告気味な部分はあるが)

Mistralからは小規模で高性能なモデルMistral small(Mistral Small 3 | Mistral AI | Frontier AI in your handsmistralai/Mistral-Small-24B-Instruct-2501 · Hugging Face)がApache-2ライセンスで発表された。

Ai2からは大規模高性能なLLM Tulu3(Scaling the Tülu 3 post-training recipes to surpass the performance of DeepSeek V3 | Ai2)(Llama 3.1ベース、405B)が、HuggingFaceからはDeepseek R1の再現を目指すOpen R1が発表される(Open-R1: a fully open reproduction of DeepSeek-R1)などオープンな取り組みも盛り上がっている。

マルチモーダル化の流れでも「Open-source Omni-modal Foundation Model Supporting Text, Image, Video, and Audio Inputs as Well as Text and Audio Outputs」なBAICHUAN-OMNI-1.5のテクニカルレポートが出ており、クローズド、オープン両方の陣営とも競争が非常に激しい。

  • Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling [27.1]
    我々は、Janus-Proという前作の先進的なバージョンを紹介します。 Janus-Proは(1)最適化されたトレーニング戦略、(2)拡張されたトレーニングデータ、(3)より大きなモデルサイズへのスケーリングを取り入れている。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 18:00:19 GMT)
  • 「We apply independent encoding methods to convert the raw inputs into features, which are then processed by an unified autoregressive transformer.」と、Auto regressive transformer、LLaVAに比べてパラメータ効率が高い
  • Qwen2.5-1M Technical Report [72.1]
    コンテクスト長を100万トークンまで拡張する一連のモデルであるQwen2.5-1Mを紹介する。 我々の推論フレームワークを活用することで、Qwen2.5-1Mモデルは驚くべき3倍から7倍のプリフィルスピードアップを達成する。
    論文  参考訳(メタデータ)   (Sun, 26 Jan 2025 03:47:25 GMT)
  • Qwenのロングコンテキス化
  • Baichuan-Omni-1.5 Technical Report [78.5]
    Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。 マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。 第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
    論文  参考訳(メタデータ)   (Sun, 26 Jan 2025 02:19:03 GMT)
  • オープンなMLLM
  • リポジトリはGitHub – baichuan-inc/Baichuan-Omni-1.5
  • Humanity’s Last Exam [244.6]
    HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。 数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。 各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
    論文  参考訳(メタデータ)   (Fri, 24 Jan 2025 05:27:46 GMT)
  • 現状のAIで解くのが困難なベンチマーク、プロジェクトサイトはHumanity’s Last Exam
  • Tulu 3: Pushing Frontiers in Open Language Model Post-Training [94.1]
    トゥル3(Tulu 3)は、最先端の訓練後モデルである。 Tulu 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 18:46:59 GMT)
  • もともとは11月に出た論文。405B版は非常に高性能。
  • 上述のサイトでは「Interestingly, we found that our Reinforcement Learning from Verifiable Rewards (RLVR) framework improved the MATH performance more significantly at a larger scale, i.e., 405B compared to 70B and 8B, similar to the findings in the DeepSeek-R1 report. Overall, our results show a consistent edge over DeepSeek V3, especially with the inclusion of safety benchmarks.」とのこと。

Parametric Retrieval Augmented Generation

  • Parametric Retrieval Augmented Generation [32.3]
    Parametric RAGは、外部知識を直接フィードフォワードネットワークのパラメータに統合する新しいRAGパラダイムである。 これは、大きな言語モデルにおける知識増強の有効性と効率を大幅に向上させる。
    論文  参考訳(メタデータ)   (Mon, 27 Jan 2025 10:04:49 GMT)
  • 「we propose to insert documents directly into the parameters of L. To achieve this, the Parametric RAG framework is designed with two stages: an offline document parameterization stage and an online inference stage with a Retrieve-Update-Generate workflow.」(LはLLMのパラメータ)という方式のRAG?の提案。LoRA をつかってなお計算は大変そうだが、性能はよさそうに見える。
  • リポジトリはGitHub – oneal2000/PRAG: Code for Parametric Retrieval Augmented Generation

CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation 

  • CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation [70.3]
    CowPilotは、自律的および人間とエージェントの協調的なWebナビゲーションをサポートするフレームワークである。 エージェントが次のステップを提案することによって、人間が実行しなければならないステップの数を減らすと同時に、ユーザが一時停止、拒否、代替アクションを取ることができる。 CowPilotは、Webサイト間でのデータ収集とエージェント評価のための便利なツールとして機能する。
    論文  参考訳(メタデータ)   (Tue, 28 Jan 2025 00:56:53 GMT)
  • 人間とエージェントが協調することを前提としたフレームワークの提案。「We conducted case studies on five common websites and found that the human-agent collaborative mode achieves the highest success rate of 95% while requiring humans to perform only 15.2% of the total steps.」で現実的な効率化につながりそうな結果。(ではあるが、多くのタスクで完全自動化と協調的な自動化の意味は大きく違う点には注意が必要。)
  • プロジェクトサイトはCowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

  • SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.5]
    ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。 本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。 RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
    論文  参考訳(メタデータ)   (Tue, 28 Jan 2025 18:59:44 GMT)
  • まさに今知りたい情報という感じの論文、「Through extensive experiments on the GeneralPoints and V-IRL tasks, we demonstrated that RL exhibits superior performance in learning generalizable knowledge, while SFT tends to merely memorize the training data, across both the rule and visual variations.」とのこと。
  • 上記に加え、「SFT is necessary for RL training when the backbone model does not follow instructions.」はとても興味深い。基礎性能によって効果的なトレーニング方針が異なるというのは他の事例でもよく見られる印象があり(直感的にもそうだろうとも思い)、このあたりは重要なノウハウでありそう。
  • プロジェクトサイトはSFT Memorizes, RL Generalizes

International AI Safety Report

o3-mini vs DeepSeek-R1: Which One is Safer? 

  • o3-mini vs DeepSeek-R1: Which One is Safer? [6.1]
    DeepSeek-R1はOpenAIのo3-miniと比べて非常に安全ではない。 DeepSeek-R1は、実行されたプロンプトの11.98%に対して安全ではないと答えたが、o3-miniは1.19%だった。
    論文  参考訳(メタデータ)   (Thu, 30 Jan 2025 15:45:56 GMT)
  • Deepseek R1とOpenAI o3-miniの安全性評価。既存フレームワークを使っているとはいえ、すごいスピード間での発表。(「The team conducting the study was part of the early access safety testing program of OpenAI: https://openai.com/index/ early-access-for-safety-testing/」との脚注はある)
  • 結論としては「Our results suggests that OpenAI’s o3-mini LLM is a much safer model than DeepSeek-R1, which answered unsafely to almost 12% of the executed unsafe prompts.」とのこと。