2021年10月21日 – arXiv最新論文の紹介

MarkupLM: マークアップ情報を扱える言語モデル

MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding [35.4]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (Sat, 16 Oct 2021 09:17:28 GMT)
- テキストだけでなくマークアップ情報を併用して事前学習を行う言語モデルの提案。文書理解タスクで既存の強力なベースラインモデルを大幅に上回るとのこと。この手のデータは削除してしまうことも多いが情報があることは間違いない。自然な形で利用、性能向上に効果があるのは面白い。
- リポジトリはhttps://github.com/microsoft/unilm/tree/master/markuplmとのことだが現時点ではソース等はアップロードされていない。

Unsupervised Finetuning [80.6]
ソースデータとターゲットデータを組み合わせて教師なしの微調整を行うための2つの戦略を提案する。前者の戦略の動機は、事前訓練された表現空間を占有するために、少量のソースデータを追加することである。後者の戦略の動機は、データ密度を高め、よりコンパクトな表現を学ぶことにある。
論文参考訳（メタデータ） (Mon, 18 Oct 2021 17:57:05 GMT)
- 教師無しのfine-tuning手法の提案、対象は画像処理。ドメイン適合と考えれば効果はありそうだが、実際にこの方針で性能が上がるのはすごい。

Adversarial Attacks on ML Defense Models Competition [82.4]
清華大学のTSAILグループとAlibaba Securityグループがこの競争を組織した。この競争の目的は、敵の堅牢性を評価するために、新しい攻撃アルゴリズムを動機付けることである。
論文参考訳（メタデータ） (Fri, 15 Oct 2021 12:12:41 GMT)
- 清華大学とAlibabaセキュリティグループによるCVPR 2021 workshop on adversarial machine learning の報告。各チームのアプローチの概要が参考になる。
- プロジェクトサイトはhttps://ml.cs.tsinghua.edu.cn/ares-bench/