コンテンツへスキップ
- TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding [48.5]
我々は、長いビデオ理解の課題に取り組むために設計されたハイブリッドビジョン言語モデルであるTimeViperを紹介する。 TimeViperは、状態空間モデルの効率性とアテンションメカニズムの表現性を組み合わせたハイブリッドなMamba-Transformerバックボーンを採用している。 この研究は、ハイブリッドなMamba-Transformerアーキテクチャを開発し、解釈し、圧縮するための最初のステップである。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 17:48:21 GMT)
- Mambaハイブリッドの構造で「TimeViper to process hour-long videos exceeding 10,000 frames」という長い動画を扱えるモデルの提案
- リポジトリはTimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
- AgentEvolver: Towards Efficient Self-Evolving Agent System [51.5]
本稿では,自律型エージェント学習を駆動する自己進化型エージェントシステムであるAgentEvolverを紹介する。 AgentEvolverは、セルフクエスト、セルフナビゲート、セルフコントリビューションという3つのシナジスティックメカニズムを導入している。 予備実験により、AgentEvolverは従来のRLベースのベースラインと比較して、より効率的な探索、より優れたサンプル利用、より高速な適応を実現していることが示された。
論文 参考訳(メタデータ) (Fri, 14 Nov 2025 01:49:03 GMT)
- 「The self-evolving process is driven by three synergistic mechanisms: Self-questioning for autonomous task generation, Self-navigating for experience- guided exploration, and Self-attributing for fine-grained credit assignment.」からなる自己改善アプローチ。
- リポジトリはGitHub – modelscope/AgentEvolver: AgentEvolver: Towards Efficient Self-Evolving Agent System