- A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends [11.4]
Visually-Rich Document Understanding (VRDU)は、複雑なビジュアル、テキスト、レイアウト情報を含む文書を自動的に処理する必要があるため、重要な分野として登場した。 この調査はMLLMベースのVRDUの最近の進歩をレビューし、3つのコアコンポーネントを強調した。
論文 参考訳(メタデータ) (Mon, 14 Jul 2025 02:10:31 GMT) - 図やレイアウトの取り扱いを含むDocument Understandingのサーベイ