MiniMax-01: Scaling Foundation Models with Lightning Attention 

  • MiniMax-01: Scaling Foundation Models with Lightning Attention [59.4]
    MiniMax-Text-01とMiniMax-VL-01は、より長いコンテキストを処理するのに優れた機能を提供する。 MiniMax-Text-01は、トレーニング中に最大100万のトークンに到達でき、推論時に400万のトークンを安価な価格で外挿できる。 私たちのビジョン言語モデルであるMiniMax-VL-01は、512億のビジョン言語トークンによる継続的なトレーニングによって構築されます。
    論文  参考訳(メタデータ)   (Tue, 14 Jan 2025 18:50:05 GMT)
  • 456B(32エキスパート、アクティブパラメータ 45.9B)のMoE構成の大規模な公開LLM。性能はGPT-4oなど商用モデルに匹敵するうえ、扱えるコンテキスト長が4Mトークンととても長い。「We demonstrate the first successful large-scale implementation of linear attention.」と主張(「After extensive experimentation, we settled on a hybrid architecture mainly using lightning attention (Qin et al , 2024b), an I/O-aware implementation of a linear attention variant (Qin et al , 2022a).」ともある通りハイブリッド構成)。
  • リポジトリはGitHub – MiniMax-AI/MiniMax-01

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です