- EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning [108.7]
MLLM(Multimodal large language model)は、テキスト、視覚、音声にまたがる高度な認識を持つが、構造化されたクロスモーダル推論に苦慮する。 MLLMにおけるそのような推論を強化する強化学習フレームワークであるEchoInk-R1を紹介する。
論文 参考訳(メタデータ) (Wed, 07 May 2025 17:59:49 GMT) - マルチモーダルなReasoningモデル構築フレームワークの提案。「we adopt the Group Relative Policy Optimiza- tion (GRPO) reinforcement learning framework to the task of audio-image multiple-choice question answering in mul- timodal large language models (MLLMs)」
- リポジトリはGitHub – HarryHsing/EchoInk: EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning [🔥The Exploration of R1 for General Audio-Visual Reasoning with Qwen2.5-Omni]