MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.5]
MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。 5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
論文参考訳（メタデータ） (Tue, 18 Mar 2025 06:57:21 GMT)
非常に凝った構成のRAG（AgenticRAG）
リポジトリはGitHub – aiming-lab/MDocAgent: MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

コメントを残す

コメントを残す コメントをキャンセル