Transformerアーキテクチャに代わりうるモデルに関する報告が出ていた。Eagle, FinchはRWKVプロジェクト(DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)など)の研究成果で非常にまとまった論文、RecurentGemmaは1 bit(1.58 bit)なLLMとHAWK・Griffin – arXiv最新論文の紹介 (devneko.jp)のGriffinを取り入れたオープンなモデルである。新たなアーキテクチャに期待したい。
- Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [37.0]
本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。 アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。 我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
論文 参考訳(メタデータ) (Wed, 10 Apr 2024 19:34:38 GMT) - RWKVの最新バージョンの論文、ベンチマーク結果を見る限りtransformerベースの最新アーキテクチャと比べても良い勝負になってきている。学習時の計算コストと性能ではMambaよりもコストパフォーマンスがよさそう。
- プロジェクトサイトはRWKV (RWKV) (huggingface.co)
- RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.6]
本稿では,Googleの新しいGriffinアーキテクチャを用いたオープン言語モデルであるRecurrentGemmaを紹介する。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。
論文 参考訳(メタデータ) (Thu, 11 Apr 2024 15:27:22 GMT) - こちらはGriffinアーキテクチャによるオープンモデル。2Bで比較してGemmaとほぼ同性能、スループットは大幅に向上している。
- リポジトリはgoogle-deepmind/recurrentgemma: Open weights language model from Google DeepMind, based on Griffin. (github.com)、モデルはKaggleで公開されている。RecurrentGemma | Kaggle