Eagle, Finch, RecurrentGemma

Transformerアーキテクチャに代わりうるモデルに関する報告が出ていた。Eagle, FinchはRWKVプロジェクト(DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)など)の研究成果で非常にまとまった論文、RecurentGemmaは1 bit(1.58 bit)なLLMとHAWK・Griffin – arXiv最新論文の紹介 (devneko.jp)のGriffinを取り入れたオープンなモデルである。新たなアーキテクチャに期待したい。

  • Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [37.0]
    本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。 アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。 我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
    論文  参考訳(メタデータ)   (Wed, 10 Apr 2024 19:34:38 GMT)
  • RWKVの最新バージョンの論文、ベンチマーク結果を見る限りtransformerベースの最新アーキテクチャと比べても良い勝負になってきている。学習時の計算コストと性能ではMambaよりもコストパフォーマンスがよさそう。
  • プロジェクトサイトはRWKV (RWKV) (huggingface.co)

Rho-1: Not All Tokens Are What You Need

  • Rho-1: Not All Tokens Are What You Need [132.3]
    「コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要ではない」 Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
    論文  参考訳(メタデータ)   (Thu, 11 Apr 2024 17:52:01 GMT)
  • 「Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution.」によって最終性能が上がるという報告。高品質(所望の)ドキュメントで参照モデルを構築し、その結果を利用してトークンを選択するアプローチのよう。
  • リポジトリはmicrosoft/rho: Token-level Data Filtering & Selective Pretraining of LLMs. (github.com)

RS-Mamba

  • RS-Mamba for Large Remote Sensing Image Dense Prediction [58.1]
    VHRリモートセンシングにおける高密度予測タスクのためのリモートセンシングマンバ(RSM)を提案する。 RSMは、線形複雑なリモートセンシング画像のグローバルな特徴をモデル化し、大きなVHR画像を効率的に処理できるように設計されている。 RSMは、VHRリモートセンシングの高密度予測タスクにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 12:06:01 GMT)
  • リモートセンシングへのMambaの応用、テキストに目が行きがちだが、「We proposed a Remote Sensing Mamba for dense prediction tasks in ultra-high resolution remote sensing imagery, addressing the limitations of CNN-based models in global context information modeling and the challenges of transformer-based models handling large remote sensing images.」ということでtransformerだと厳しい用途に向いているモデルのよう。
  • リポジトリはwalking-shadow/Official_Remote_Sensing_Mamba: Official code of Remote Sensing Mamba (github.com)