- Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.8]
Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。 Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 18:58:10 GMT) - 動画内のオブジェクトのようなインスタンスレベルでの理解を行うためのベンチマーク、データセットの提案。
- 筆者らによってFinetuningされたモデルはOSSなものでは高性能だが商用レベルには及んでいない。というのとこれが純粋に難しい問題であることが分かるスコア。
- リポジトリはInst-IT