- Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model [138.2]
変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。 本研究では,異なるアーキテクチャを探索し,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。 RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。
論文 参考訳(メタデータ) (Thu, 27 Jun 2024 17:49:25 GMT) - Segment AnythingモデルにおけるRWKVとMambaを比較、RWKV-SAMという高速かつ高性能な構造を提案。「In particular, we find that under the efficient segmentation setting of high-resolution image inputs, RWKV runs faster than Mamba.」とのこと。
- リポジトリはGitHub – HarborYuan/ovsam: [arXiv preprint] The official code of paper “Open-Vocabulary SAM”.
タグ: RWKV
Eagle, Finch, RecurrentGemma
Transformerアーキテクチャに代わりうるモデルに関する報告が出ていた。Eagle, FinchはRWKVプロジェクト(DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)など)の研究成果で非常にまとまった論文、RecurentGemmaは1 bit(1.58 bit)なLLMとHAWK・Griffin – arXiv最新論文の紹介 (devneko.jp)のGriffinを取り入れたオープンなモデルである。新たなアーキテクチャに期待したい。
- Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [37.0]
本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。 アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。 我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
論文 参考訳(メタデータ) (Wed, 10 Apr 2024 19:34:38 GMT) - RWKVの最新バージョンの論文、ベンチマーク結果を見る限りtransformerベースの最新アーキテクチャと比べても良い勝負になってきている。学習時の計算コストと性能ではMambaよりもコストパフォーマンスがよさそう。
- プロジェクトサイトはRWKV (RWKV) (huggingface.co)
- RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.6]
本稿では,Googleの新しいGriffinアーキテクチャを用いたオープン言語モデルであるRecurrentGemmaを紹介する。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。
論文 参考訳(メタデータ) (Thu, 11 Apr 2024 15:27:22 GMT) - こちらはGriffinアーキテクチャによるオープンモデル。2Bで比較してGemmaとほぼ同性能、スループットは大幅に向上している。
- リポジトリはgoogle-deepmind/recurrentgemma: Open weights language model from Google DeepMind, based on Griffin. (github.com)、モデルはKaggleで公開されている。RecurrentGemma | Kaggle
DBRX, Jamba, Grok-1.5, RWKV Finch
先週もLLM界隈の話題が多かった。注目はDatabricks(&元MosaicML)によるDBRXで公開モデルとしては非常に高性能(ライセンスは独自)。「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして | Databricks Blog
JambaはMamba MoE + transformerでSSMハイブリッドとして商用レベルをうたうモデル。ベースモデルはApache-2ライセンス。Introducing Jamba: AI21’s Groundbreaking SSM-Transformer Model
transformer以外の選択肢だとRWKV-6 Finch(RWKV-x060-World-1B6-v2.1-20240328-ctx4096)がhugging faceで試用可能となっている。長文翻訳はまだまだという感じだがfine tuning等やってみたいところ
RWKV-Gradio-1 – a Hugging Face Space by BlinkDL
Grok-1.5(および2)のアナウンスもありこちらも要注目。
Announcing Grok-1.5 (x.ai)
XユーザーのElon Muskさん: 「Should be available on 𝕏 next week. Grok 2 should exceed current AI on all metrics. In training now.」 / X (twitter.com)
GPT-4やGemini、ClaudeなどAPIベースの選択肢以外が広がることを期待したい。
Vision-RWKV
- Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [99.2]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。 スパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。 画像分類における評価では,VRWKVはViTの分類性能と著しく高速で,メモリ使用量が少ないことが示されている。
論文 参考訳(メタデータ) (Mon, 4 Mar 2024 18:46:20 GMT) - RWKVの画像分野への応用。Vision Transformerと比べ性能的には同等、メモリ・速度の効率は大幅に優れているように見える。
- リポジトリはOpenGVLab/Vision-RWKV: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures (github.com)
RWKV-TS
- RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks [42.3]
伝統的なリカレントニューラルネットワーク(RNN)アーキテクチャは、伝統的に時系列タスクにおいて顕著な地位を占めてきた。 近年の時系列予測の進歩は、RNNからTransformersやCNNといったタスクに移行している。 我々は,RWKV-TSという,時系列タスクのための効率的なRNNモデルの設計を行った。
論文 参考訳(メタデータ) (Wed, 17 Jan 2024 09:56:10 GMT) - 時系列予測へのRNN系モデルの改善、高速高性能とのこと
- リポジトリはhoward-hou/RWKV-TS: RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks (github.com)