Deepseek V3/R1関連の話題が盛り上がる中、先週も様々な話題があった。DeepseekからはマルチモーダルモデルJanus-Pro(GitHub – deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models)、AlibabaからはDeepseekに対抗するようなQwenの最大モデルの発表(Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen)が発表された。ロングコンテキス化に関する論文も出ている点にも要注目。
OpenAIからo3-mini(OpenAI o3-mini | OpenAI)が出てHumanity’s Last Examでo1やr1を超えたのは大きなニュースだった(若干誇大広告気味な部分はあるが)
Mistralからは小規模で高性能なモデルMistral small(Mistral Small 3 | Mistral AI | Frontier AI in your hands、mistralai/Mistral-Small-24B-Instruct-2501 · Hugging Face)がApache-2ライセンスで発表された。
Ai2からは大規模高性能なLLM Tulu3(Scaling the Tülu 3 post-training recipes to surpass the performance of DeepSeek V3 | Ai2)(Llama 3.1ベース、405B)が、HuggingFaceからはDeepseek R1の再現を目指すOpen R1が発表される(Open-R1: a fully open reproduction of DeepSeek-R1)などオープンな取り組みも盛り上がっている。
マルチモーダル化の流れでも「Open-source Omni-modal Foundation Model Supporting Text, Image, Video, and Audio Inputs as Well as Text and Audio Outputs」なBAICHUAN-OMNI-1.5のテクニカルレポートが出ており、クローズド、オープン両方の陣営とも競争が非常に激しい。
- Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling [27.1]
我々は、Janus-Proという前作の先進的なバージョンを紹介します。 Janus-Proは(1)最適化されたトレーニング戦略、(2)拡張されたトレーニングデータ、(3)より大きなモデルサイズへのスケーリングを取り入れている。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 18:00:19 GMT) - 「We apply independent encoding methods to convert the raw inputs into features, which are then processed by an unified autoregressive transformer.」と、Auto regressive transformer、LLaVAに比べてパラメータ効率が高い
- Qwen2.5-1M Technical Report [72.1]
コンテクスト長を100万トークンまで拡張する一連のモデルであるQwen2.5-1Mを紹介する。 我々の推論フレームワークを活用することで、Qwen2.5-1Mモデルは驚くべき3倍から7倍のプリフィルスピードアップを達成する。
論文 参考訳(メタデータ) (Sun, 26 Jan 2025 03:47:25 GMT) - Qwenのロングコンテキス化
- Baichuan-Omni-1.5 Technical Report [78.5]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。 マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。 第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (Sun, 26 Jan 2025 02:19:03 GMT) - オープンなMLLM
- リポジトリはGitHub – baichuan-inc/Baichuan-Omni-1.5
- Humanity’s Last Exam [244.6]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。 数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。 各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (Fri, 24 Jan 2025 05:27:46 GMT) - 現状のAIで解くのが困難なベンチマーク、プロジェクトサイトはHumanity’s Last Exam
- Tulu 3: Pushing Frontiers in Open Language Model Post-Training [94.1]
トゥル3(Tulu 3)は、最先端の訓練後モデルである。 Tulu 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 18:46:59 GMT) - もともとは11月に出た論文。405B版は非常に高性能。
- 上述のサイトでは「Interestingly, we found that our Reinforcement Learning from Verifiable Rewards (RLVR) framework improved the MATH performance more significantly at a larger scale, i.e., 405B compared to 70B and 8B, similar to the findings in the DeepSeek-R1 report. Overall, our results show a consistent edge over DeepSeek V3, especially with the inclusion of safety benchmarks.」とのこと。