Jamba: A Hybrid Transformer-Mamba Language Model

  • Jamba: A Hybrid Transformer-Mamba Language Model [36.5]
    本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。 JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 23:55:06 GMT)
  • DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)で紹介したJambaの論文。モデルアーキテクチャの詳細などが紹介されている。「Combining Transformer, Mamba, and MoE elements allows flexibility in balancing among the sometimes conflicting objectives of low memory usage, high throughput, and high quality.」とあり、全52BパラメータだがActiveなものは12B、KVキャッシュは4GB(256Kコンテキスト)ととても軽量。Mistralだとパラメータ7.2B、Activeなものも7.2BでKVキャッシュは32GB、Mixstralだと同46.7B, 12.9B, 32GB。(コンテキスト長すぎじゃないかと思わなくはないが) 性能はMixstralと良い勝負であり非常に効率的。
  • リポジトリはai21labs/Jamba-v0.1 · Hugging Face

OmniParser

Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation 

  • Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [31.5]
    従来の生成モデルから最先端のSoraモデルへの移行に焦点を当て,テキスト・ビデオ技術の進歩を批判的に考察する。 この調査は、新参者と有能な研究者の両方を対象としたもので、テキスト・ビデオ・ジェネレーションの分野におけるさらなる革新と議論を促進することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 8 Mar 2024 07:58:13 GMT)
  • World modelになるかもというsoraの主張に対してのサーベイ。「it is understandable that OpenAI claims Sora as an AI model that understands and thus, can simulate the physical world.」としながらも様々な課題も指摘している。「Nonetheless, why scaling up is not a cure-all and how to liberate Sora from contemporary issues in vision generation tasks is still left as a blue ocean in vision generation research community」