PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding

  • PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding [114.5]
    画素レベルの部分接地のために設計された LMM ベンチマークである PartONOMY を紹介する。 我々はいくつかの部分中心LMMをトレーニングし、セグメント化トークンの代わりにスパンタグを使用する新しいセグメント化LMMであるPLUMを提案する。 我々の研究は、LMMにおけるきめ細かい基礎的な視覚的理解を実現するための新たな道を開く。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 06:03:56 GMT)
  • 「Unfortunately, Large Multimodal Models (LMMs), the backbones of today’s multimodal systems, lack strong part recognition abilities 」とのことで、それを検証するベンチマークと改善モデルPLUM: Part-Level Understanding LMMを提案。
  • リポジトリはGitHub – AnselBlume/partonomy: Repository for “Partonomy: Large Multimodal Models with Part-Level Visual Understanding”

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です