OmniGAIA: Towards Native Omni-Modal AI Agents

  • OmniGAIA: Towards Native Omni-Modal AI Agents [103.8]
    我々は、深い推論とマルチターンツールの実行を必要とするタスクにおいて、オムニモーダルエージェントを評価するために設計されたベンチマークを導入する。 我々は,Omni-modal foundation agentであるOmniAtlasを提案する。
    論文  参考訳(メタデータ)   (Thu, 26 Feb 2026 11:35:04 GMT)
  • 「OmniGAIA, a challenging benchmark for native omni-modal agents. OmniGAIA comprises 360 tasks across 9 real-world domains, covering both video-with-audio and image+audio settings, and explicitly requires multi-turn tool use (e g , web search/browsing and code) to produce verifiable open-form answers.」とマルチモーダルなベンチマーク。デモが分かりやすい。
  • リポジトリはGitHub – RUC-NLPIR/OmniGAIA: OmniGAIA: Towards Native Omni-Modal AI Agents、リーダーボードはOmniGAIA Leaderboard – a Hugging Face Space by RUC-NLPIR、商用モデル(Gemini)の強さが目立つ

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

  • MEM: Multi-Scale Embodied Memory for Vision Language Action Models [73.4]
    本稿では,マルチスケール・エンボダイドメモリ(MEM)について紹介する。 MEMはビデオベースの短水平メモリをビデオエンコーダで圧縮し、テキストベースの長水平メモリと組み合わせている。 MEMは、キッチンを掃除したり、チーズサンドイッチを焼いたりして、最大15分間のタスクをロボットが実行できるようにする。
    論文  参考訳(メタデータ)   (Wed, 04 Mar 2026 00:03:02 GMT)
  • 「MEM combines video-based short-horizon memory, compressed via a video encoder, with text-based long-horizon memory. 」とマルチモーダルなメモリフレームワークの提案。
  • プロジェクトサイトはVLAs with Long and Short-Term Memory