TGDoc

  • Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.5]
    本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。 我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。 提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 06:46:37 GMT)
  • Vicuna-7Bを拡張する形式のMLLM、データを自前で集めている点はすごい、こちらLLaVARを上回る性能。

DocPedia

  • DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [98.4]
    本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。 既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
    論文  参考訳(メタデータ)   (Mon, 20 Nov 2023 14:42:25 GMT)
  • 「 DocPedia directly processes visual input in the frequency domain rather than the pixel space.」というのが特徴的な文章理解モデル。DCT → Frequency Adapter → …と興味深いブロック図になっている。。。
  • LLaVARやmPLUG-Owlに比べて性能は高いがsupervisedなSOTAとは距離がある。