DocTr: 画像の歪み・照明の補正

  • DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [99.1]
    文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。 DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
    論文  参考訳(メタデータ)   (Mon, 25 Oct 2021 13:27:10 GMT)

Multi-document Summarization: サブグラフ選択として解くSgSum、Longformerを用いるPRIMER

  • SgSum: Transforming Multi-document Summarization into Sub-graph Selection [27.4]
    既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。 サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。 我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 05:12:10 GMT)
    • グラフ構造を通してMulti-documentな要約を行う手法の提案。MultiNewsやDUC2004で優れた結果。
  • PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization [16.8]
    要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。 具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。 私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルを大きなマージンで上回る。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sat, 16 Oct 2021 07:22:24 GMT)
    • こちらはグラフ構造ではなくLongformerを用いてマルチドキュメントに対処するアプローチ、MultiNewsなどでSoTA。
    • リポジトリはhttps://github.com/allenai/PRIMER

MarkupLM: マークアップ情報を扱える言語モデル

  • MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding [35.4]
    テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。 本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。 実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
    論文  参考訳(メタデータ)   (Sat, 16 Oct 2021 09:17:28 GMT)
    • テキストだけでなくマークアップ情報を併用して事前学習を行う言語モデルの提案。文書理解タスクで既存の強力なベースラインモデルを大幅に上回るとのこと。この手のデータは削除してしまうことも多いが情報があることは間違いない。自然な形で利用、性能向上に効果があるのは面白い。

Unlabeledデータを用いたフィールド抽出モデル

  • Field Extraction from Forms with Unlabeled Data [53.9]
    本研究では,未ラベルデータを用いたフォームからフィールド抽出を行う新しいフレームワークを提案する。 我々は,未ラベル形式からノイズの多い擬似ラベルをマイニングするためのルールベース手法を開発した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 8 Oct 2021 17:50:12 GMT)
    • ルールベースの手法で疑似ラベルを付与して学習、その後transformerベースの手法でモデルを改善していくという手法でField Extractionを行うという論文。現実的な対応という感じがして参考になる。論文で指摘されているようにセンシティブな情報が含まれていることも多いのでアノテーションを行わない(行うにしても少なくて済む)手法は重要。

MobileViT: 軽量・効率的な画像用Transformer

  • MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer [24.5]
    モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。 以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 17:07:53 GMT)
    • パラメータ数が同等のMobileNetv3(CNN系)、DeIT(ViT系)を上回る性能を出せる軽量なVision Transformerの報告。結局、ViTs are slower than CNNsって・・・とは思わなくはないが、Transformerの利用は広まっているのでハードウェア演算による支援が普通になる未来を期待。
      • この論文はAppleからだしTransformer向けの計算支援をiPhoneに組み込んでほしい。(そしてFuguMTも高速化させたい)

Anomaly Transformer: Transformerを用いた異常検知

  • Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy [68.9]
    異常の希少性のため, 系列全体と強い関連性を構築することは困難であり, 関連性は主に隣接点に集中していることが観察された。 通常の点と異常点の間に本質的に区別可能な基準を示しており、これはAssociation Discrepancy として強調する。関係の一致を計算するために,Anomaly-Attention機構を備えたAnomaly-Transformer を提案する。Anomaly Transformerは、6つの教師なし時系列異常検出ベンチマークで最先端のパフォーマンスを達成する
    論文  参考訳(メタデータ)   (Wed, 6 Oct 2021 10:33:55 GMT)
    • Transformerを用いて優れた性能の異常検知が可能との論文。概要の通り単純なTransforerではない。Ablation studyの分析が面白い。

VideoCLIP: 対照学習を用いたゼロショットでのビデオ/テキスト理解

  • VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
    我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 23:01:51 GMT)
    • 対照学習を使用したビデオ/テキストの事前学習モデル。fine tuningだとYouCook2でSoTA(に近い性能)、ゼロショットでも非常に優れた性能を発揮。データセットによってはゼロショットで既存のベースラインを超えるようなスコアを出している。
    • リポジトリはhttps://github.com/pytorch/fairseq/examples/MMPTとのことだが現時点では404

Transformerによる映像-言語の事前学習モデルのサーベイ

  • Survey: Transformer based Video-Language Pre-training [28.9]
    本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法を概観することを目的としている。 まず、注意機構、位置符号化などを含む背景知識を紹介する。 シングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 21 Sep 2021 02:36:06 GMT)
    • 映像と言語を扱うTransformerの事前学習に関するサーベイ。モデルだけではなくデータセットも整理されている。16ページと短めだがとても参考になる。CC BYと翻訳可能なライセンスであることもありがたい。(注:残念ながらFuguMTが綺麗に訳せている事は意味しない)

TrOCR: TransformerによるOCR

  • TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models [47.5]
    本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。 TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。 実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 16:01:56 GMT)
    • CNN+RNNで構成されることの多いOCRをTransformerを用いて改善。事前学習済み画像用Transfomerと事前学習済みテキスト用Transformerの構成。後処理なしでsotaを達成とのこと。
      • SROIE task2ではsotaではなさそうだが相当高精度であることは確か。
    • リポジトリはhttps://github.com/microsoft/unilm/tree/master/trocrとのことだが現時点ではまだアップロードされていない。

Primer(PRIMitives searched transformER): 言語モデルのための効率的なアーキテクチャ

  • Primer: Searching for Efficient Transformers for Language Modeling [79.3]
    大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。 ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。 私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
    論文  参考訳(メタデータ)   (Fri, 17 Sep 2021 17:50:39 GMT)
    • Transformerの構造に手を入れ効率の高いアーキテクチャを進化的な手法で探索。500MパラメータのT5相当の実装で4.2倍の学習コスト削減を達成するPrimerというアーキテクチャを見つけたとの報告。主要な変更点は「Squared ReLU」と「MDHA: Multi-DConv-Head Attention (深さ方向のconvolution layerをQ, K, V projectionの後に配置)」。Primerはこの2点以外にも様々な修正が加えられているが、この変更のみを行ったバージョン(Primer-EZ)でも高い効果があるとのこと。著者はまずPrimer-EZで高速化効果を試し必要に応じて完全なPrimerを導入することを推奨している。
    • リポジトリはhttps://github.com/google-research/google-research/tree/master/primer