- MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.5]
MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。 本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。 5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 06:57:21 GMT) - 非常に凝った構成のRAG(AgenticRAG)
- リポジトリはGitHub – aiming-lab/MDocAgent: MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding