2022年3月9日 – arXiv最新論文の紹介

DiT(Document Image Transformer): Transformer + MIMな事前学習による文書構造認識

DiT: Self-supervised Pre-training for Document Image Transformer [85.8]
自己教師付き文書画像変換モデルであるDiTを提案する。さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文参考訳（メタデータ） (Fri, 4 Mar 2022 15:34:46 GMT)
- Masked Image Modelingな大規模事前学習を行いDocument Image Transformerを構築、document image classiﬁcation、document layout analysis、 table detectionでSoTAとのこと。OCRの前処理などに重要であり、モデルが公開されているのがありがたい。
- リポジトリはunilm/dit at master · microsoft/unilm · GitHub

Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.1]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文参考訳（メタデータ） (Thu, 3 Mar 2022 18:54:59 GMT)
- Vision-Languageな研究の流れが分かるサーベイ。であると同時に特に最近は月単位で新たな手法が提案されていることが分かる。