MEM: Multi-Scale Embodied Memory for Vision Language Action Models

MEM: Multi-Scale Embodied Memory for Vision Language Action Models [73.4]
本稿では,マルチスケール・エンボダイドメモリ(MEM)について紹介する。 MEMはビデオベースの短水平メモリをビデオエンコーダで圧縮し、テキストベースの長水平メモリと組み合わせている。 MEMは、キッチンを掃除したり、チーズサンドイッチを焼いたりして、最大15分間のタスクをロボットが実行できるようにする。
論文参考訳（メタデータ） (Wed, 04 Mar 2026 00:03:02 GMT)
「MEM combines video-based short-horizon memory, compressed via a video encoder, with text-based long-horizon memory. 」とマルチモーダルなメモリフレームワークの提案。
プロジェクトサイトはVLAs with Long and Short-Term Memory

コメントを残す

コメントを残す コメントをキャンセル