先週もLLM関連の話題は多かったが、Llama4の発表はその中でも大きなものだった(The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation)。MoE構成で高い性能を主張、第三者の検証ではいまいちという話も、量子化の影響(性能劣化)が大きいのではという話もあって、検証結果が出そろうのを待ちたいところ。
NVIDIAからは Mamba-TransformerハイブリッドなNemotron-Hが発表されている(Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models – NVIDIA ADLR)。 「Nemotron-H has been used as the backbone for Cosmos-Reason 1, a very strong VLM for physical AI.」というのにも注目。
HuaweiからはPangu Ultraの論文が出ているが、詳細なPDFは公開されていないよう。「To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1」という興味深い記載があり詳細が気になるところ。
Kimi-VL は強力なMLLMであり、また、Kimi-VL-ThinkingとLRMでもあるのが特徴的な公開モデル(moonshotai/Kimi-VL-A3B-Instruct · Hugging Face)。o3-miniレベルの性能を主張するDeepCoder: A Fully Open-Source 14B Coder at O3-mini Levelなどオープンなモデルも進化が速い。オープンなモデルを強化する方向もIntroducing Cogito Preview(Cogito v1 Preview – a deepcogito Collection)など様々な成果が出ていて、公開モデルの性能も向上が続く。
- Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [164.5]
ネモトロン-Hは8Bと56B/47Bハイブリッド・マンバ・トランスフォーマーのファミリーである。 私たちは共通のTransformerモデルアーキテクチャにおけるほとんどの自己注意レイヤをMambaレイヤに置き換えます。 Nemotron-Hモデルは、他の同様のサイズのオープンソーストランスフォーマーモデルと比較して、精度が良いか低いかのどちらかを提供する。
論文 参考訳(メタデータ) (Fri, 04 Apr 2025 17:41:58 GMT) - 高速、高性能なMambaハイブリッドなLLM
- Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs [123.3]
135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。 このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。 我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
論文 参考訳(メタデータ) (Thu, 10 Apr 2025 15:41:51 GMT) - ファーウェイのLLM。ファーウェイのアクセラレータを活用して構築しているとのことだが現状論文が参照できない状態。詳細が気になるところ。
- Kimi-VL Technical Report [88.1]
Kimi-VLは視覚言語モデル(VLM)であり、高度なマルチモーダル推論、長いコンテキスト理解、強力なエージェント能力を提供する。 汎用 VLM として、Kimi-VL はマルチターンエージェントタスク(OSWorld など)に優れ、旗艦モデルと一致する。 Kimi-VLをベースとして、Kim-VL-Thinkingという先進的なロングシンキングモデルを導入する。
論文 参考訳(メタデータ) (Thu, 10 Apr 2025 06:48:26 GMT) - エージェントタスクでも高い性能を持つマルチモーダルLLM。Thinkingバージョンはパラメータ数と比較して高い性能。
- リポジトリはGitHub – MoonshotAI/Kimi-VL: Kimi-VL: Mixture-of-Experts Vision-Language Model for Multimodal Reasoning, Long-Context Understanding, and Strong Agent Capabilities, moonshotai/Kimi-VL-A3B-Instruct · Hugging Face