List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs

List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs [160.6]
『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
論文参考訳（メタデータ） (Thu, 25 Apr 2024 07:29:17 GMT)
GPT-4Vで有効なことが知られているSoM（Set-of-Mark Prompting – arXiv最新論文の紹介 (devneko.jp)）をオープンなモデルでも有効にする手法を提案。 List Items One by Oneタスクを解かせる（データセットはGPT-4Vを利用して作成）
リポジトリはGitHub – zzxslp/SoM-LLaVA: Empowering Multimodal LLMs with Set-of-Mark Prompting and Improved Visual Reasoning Ability.
（オープンなモデルでは有効性が低いことに少し驚き）

コメントを残す

コメントを残す コメントをキャンセル