UFO(UniFied TransfOrmer):画像/言語で単一/マルチモーダル対応のTransformer

  • UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
    視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。 既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 03:23:10 GMT)
    • 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。

Swin Transformer V2

  • Swin Transformer V2: Scaling Up Capacity and Resolution [45.5]
    我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536×1,536解像度の画像でトレーニングできるようにする。 キャパシティと解像度をスケールアップすることで、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 18 Nov 2021 18:59:33 GMT)
    • Object Detectionなどで有名なSwin Transformerのversion 2(アーキテクチャにも手が入れられている)。下記リポジトリにSoTAが並ぶ優れた性能。
    • リポジトリはhttps://github.com/microsoft/Swin-Transformer

Visual Transformersのサーベイ

  • A Survey of Visual Transformers [30.1]
    注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。 コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。 我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
    論文  参考訳(メタデータ)   (Thu, 11 Nov 2021 07:56:04 GMT)
    • 画像分野におけるTransformerのサーベイ。

MTVM(Multimodal Transformer with Variable-length Memory)を用いたナビゲーション

  • Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
    VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。 近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。 視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
    論文  参考訳(メタデータ)   (Wed, 10 Nov 2021 16:04:49 GMT)
    • VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。

Masked Autoencoders

  • Masked Autoencoders Are Scalable Vision Learners [61.0]
    Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。 我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。 これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 11 Nov 2021 18:46:40 GMT)
    • Masked Autoencoderという自然言語処理を彷彿とさせる学習法の提案。ImageNet-1KでSoTAとのこと。

Masked Language Modelを用いたタンパク質表現学習

  • Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [94.0]
    タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。 提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
    論文  参考訳(メタデータ)   (Fri, 29 Oct 2021 04:01:32 GMT)
    • 自然言語処理の論文のような論文だが扱っている対象はタンパク質。LSTMも有効だったとのことでMLMに効果がありそうなのはわかるが、この手の構造が汎用的に有効なのか、バイオ系に特化した構造というのがあるのかないのかは興味がある。

s2s-ft: 自然言語生成に適した事前学習モデル

  • s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning [47.3]
    条件付き生成タスクに予めトレーニングされたトランスフォーマーを採用するシーケンス・ツー・シーケンスの微調整ツールキット s2s-ft を提案する。 S2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を達成する。
    論文  参考訳(メタデータ)   (Tue, 26 Oct 2021 12:45:34 GMT)
  • 生成系タスクに適したモデルの提案。同パラメータ数の比較でAbstract Summarization / CNNDMでPEGASUSを超える性能。
  • リポジトリはhttps://github.com/microsoft/unilm/tree/master/s2s-ft

DocTr: 画像の歪み・照明の補正

  • DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [99.1]
    文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。 DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
    論文  参考訳(メタデータ)   (Mon, 25 Oct 2021 13:27:10 GMT)

Multi-document Summarization: サブグラフ選択として解くSgSum、Longformerを用いるPRIMER

  • SgSum: Transforming Multi-document Summarization into Sub-graph Selection [27.4]
    既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。 サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。 我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 05:12:10 GMT)
    • グラフ構造を通してMulti-documentな要約を行う手法の提案。MultiNewsやDUC2004で優れた結果。
  • PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization [16.8]
    要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。 具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。 私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルを大きなマージンで上回る。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sat, 16 Oct 2021 07:22:24 GMT)
    • こちらはグラフ構造ではなくLongformerを用いてマルチドキュメントに対処するアプローチ、MultiNewsなどでSoTA。
    • リポジトリはhttps://github.com/allenai/PRIMER

MarkupLM: マークアップ情報を扱える言語モデル

  • MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding [35.4]
    テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。 本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。 実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
    論文  参考訳(メタデータ)   (Sat, 16 Oct 2021 09:17:28 GMT)
    • テキストだけでなくマークアップ情報を併用して事前学習を行う言語モデルの提案。文書理解タスクで既存の強力なベースラインモデルを大幅に上回るとのこと。この手のデータは削除してしまうことも多いが情報があることは間違いない。自然な形で利用、性能向上に効果があるのは面白い。