DocLLM: A layout-aware generative language model for multimodal document understanding [12.1] 本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。 本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。 我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。 論文参考訳(メタデータ) (Sun, 31 Dec 2023 22:37:52 GMT)
bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう(非現実的な仮定でもない)。