Follow Anything

  • Follow Anything: Open-set detection, tracking, and following in real-time [69.4]
    我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。 私たちのアプローチは、何でも従う”(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。 FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
    論文  参考訳(メタデータ)   (Thu, 10 Aug 2023 17:57:06 GMT)
  • 物体検出と追跡のフレームワーク。LLMが組み合わせっているのも面白い。
  • リポジトリはGitHub – alaamaalouf/FollowAnything

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

  • Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
    最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。 既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。 本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
    論文  参考訳(メタデータ)   (Thu, 10 Aug 2023 07:02:13 GMT)
  • 包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI(controllable knowledge re-injection)フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
  • リポジトリはGitHub – DCDmllm/Cheetah