LayoutLMv3

  • LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking [83.1]
    テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。 単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
    論文  参考訳(メタデータ)   (Mon, 18 Apr 2022 16:19:52 GMT)
    • マルチモーダル性を利用したLayoutLMのバージョン3。pre trainedなCNNやR-CNNバックボーンに依存していないというのにやや驚き。FUNSDでSoTAなどv2に比べて性能が向上している。
    • リポジトリはunilm/layoutlmv3 at master · microsoft/unilm · GitHub

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です