1 bit(1.58 bit)なLLMとHAWK・Griffin

LLMにおいて高速化は非常に重要。先週バズった「The Era of 1-bit LLMs」と「Griffin」は異なるアプローチではあるが今の標準レシピを改善していく取り組み。

  • Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models [101.7]
    我々は、ゲート線形再帰を持つRNNのHawkと、ゲート線形再帰と局所的な注意を混合したハイブリッドモデルGriffinを提案する。 ホークは下流でのマンバのパフォーマンスを上回り、グリフィンは6倍以上のトークンで訓練されているにもかかわらず、ラマ-2のパフォーマンスに匹敵する。 Griffinを14Bパラメータまで拡張し、効率的な分散トレーニングのためにモデルをシャーディングする方法を説明します。
    論文  参考訳(メタデータ)   (Thu, 29 Feb 2024 18:24:46 GMT)
  • RNNベースのHAWK、ハイブリッドアーキテクチャのGriffinの提案。HAWKは非常に高速だが、性能は同規模のTransformerと競合するレベル(Mambaより優れているよう)。Griffinはそれをoutperformしているように見える。7Bや14Bと大規模な検証をしているあたりさすがGoogle DeepMind。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です