- LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking [83.1]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。 単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (Mon, 18 Apr 2022 16:19:52 GMT)- マルチモーダル性を利用したLayoutLMのバージョン3。pre trainedなCNNやR-CNNバックボーンに依存していないというのにやや驚き。FUNSDでSoTAなどv2に比べて性能が向上している。
- リポジトリはunilm/layoutlmv3 at master · microsoft/unilm · GitHub