DocPedia – arXiv最新論文の紹介

DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [98.4]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文参考訳（メタデータ） (Mon, 20 Nov 2023 14:42:25 GMT)
「 DocPedia directly processes visual input in the frequency domain rather than the pixel space.」というのが特徴的な文章理解モデル。DCT → Frequency Adapter　→ …と興味深いブロック図になっている。。。
LLaVARやmPLUG-Owlに比べて性能は高いがsupervisedなSOTAとは距離がある。

コメントを残す

コメントを残す コメントをキャンセル