DiT(Document Image Transformer): Transformer + MIMな事前学習による文書構造認識

  • DiT: Self-supervised Pre-training for Document Image Transformer [85.8]
    自己教師付き文書画像変換モデルであるDiTを提案する。 さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。 実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
    論文  参考訳(メタデータ)   (Fri, 4 Mar 2022 15:34:46 GMT)
    • Masked Image Modelingな大規模事前学習を行いDocument Image Transformerを構築、document image classification、document layout analysis、 table detectionでSoTAとのこと。OCRの前処理などに重要であり、モデルが公開されているのがありがたい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です