Vision-RWKV – arXiv最新論文の紹介

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [99.2]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。スパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。画像分類における評価では,VRWKVはViTの分類性能と著しく高速で,メモリ使用量が少ないことが示されている。
論文参考訳（メタデータ） (Mon, 4 Mar 2024 18:46:20 GMT)
RWKVの画像分野への応用。Vision Transformerと比べ性能的には同等、メモリ・速度の効率は大幅に優れているように見える。
リポジトリはOpenGVLab/Vision-RWKV: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures (github.com)

コメントを残す

コメントを残す コメントをキャンセル