MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

  • MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.5]
    MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。 本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。 5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 06:57:21 GMT)
  • 非常に凝った構成のRAG(AgenticRAG)
  • リポジトリはGitHub – aiming-lab/MDocAgent: MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です