Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.7]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (Wed, 24 Apr 2024 17:59:48 GMT)
マルチモーダルなCoTフレームワークの提案、様々なMLLMで有効
リポジトリはCantor (ggg0919.github.io)

コメントを残す

コメントを残す コメントをキャンセル