- Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.7]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。 我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。 提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (Wed, 24 Apr 2024 17:59:48 GMT) - マルチモーダルなCoTフレームワークの提案、様々なMLLMで有効
- リポジトリはCantor (ggg0919.github.io)