コンテンツへスキップ
- DiT: Self-supervised Pre-training for Document Image Transformer [85.8]
自己教師付き文書画像変換モデルであるDiTを提案する。 さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。 実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (Fri, 4 Mar 2022 15:34:46 GMT)- Masked Image Modelingな大規模事前学習を行いDocument Image Transformerを構築、document image classification、document layout analysis、 table detectionでSoTAとのこと。OCRの前処理などに重要であり、モデルが公開されているのがありがたい。
- Donut: Document Understanding Transformer without OCR [17.4]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。 提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (Tue, 30 Nov 2021 18:55:19 GMT)- OCRを用いないドキュメント理解手法の提案。レシート読み取りタスクにおいてend to endででOCR→BERTより大幅に優れているのは驚き。