A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends

  • A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends [11.4]
    Visually-Rich Document Understanding (VRDU)は、複雑なビジュアル、テキスト、レイアウト情報を含む文書を自動的に処理する必要があるため、重要な分野として登場した。 この調査はMLLMベースのVRDUの最近の進歩をレビューし、3つのコアコンポーネントを強調した。
    論文  参考訳(メタデータ)   (Mon, 14 Jul 2025 02:10:31 GMT)
  • 図やレイアウトの取り扱いを含むDocument Understandingのサーベイ

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です