- Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.7]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。 我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。 提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (Wed, 24 Apr 2024 17:59:48 GMT) - マルチモーダルなCoTフレームワークの提案、様々なMLLMで有効
- リポジトリはCantor (ggg0919.github.io)
日: 2024年5月2日
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs
- List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs [160.6]
『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。 比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
論文 参考訳(メタデータ) (Thu, 25 Apr 2024 07:29:17 GMT) - GPT-4Vで有効なことが知られているSoM(Set-of-Mark Prompting – arXiv最新論文の紹介 (devneko.jp))をオープンなモデルでも有効にする手法を提案。 List Items One by Oneタスクを解かせる(データセットはGPT-4Vを利用して作成)
- リポジトリはGitHub – zzxslp/SoM-LLaVA: Empowering Multimodal LLMs with Set-of-Mark Prompting and Improved Visual Reasoning Ability.
- (オープンなモデルでは有効性が低いことに少し驚き)