Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

  • Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.7]
    視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。 我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。 提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
    論文  参考訳(メタデータ)   (Wed, 24 Apr 2024 17:59:48 GMT)
  • マルチモーダルなCoTフレームワークの提案、様々なMLLMで有効
  • リポジトリはCantor (ggg0919.github.io)

List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs