Transformerによる映像-言語の事前学習モデルのサーベイ

  • Survey: Transformer based Video-Language Pre-training [28.9]
    本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法を概観することを目的としている。 まず、注意機構、位置符号化などを含む背景知識を紹介する。 シングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 21 Sep 2021 02:36:06 GMT)
    • 映像と言語を扱うTransformerの事前学習に関するサーベイ。モデルだけではなくデータセットも整理されている。16ページと短めだがとても参考になる。CC BYと翻訳可能なライセンスであることもありがたい。(注:残念ながらFuguMTが綺麗に訳せている事は意味しない)

TrOCR: TransformerによるOCR

  • TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models [47.5]
    本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。 TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。 実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 16:01:56 GMT)
    • CNN+RNNで構成されることの多いOCRをTransformerを用いて改善。事前学習済み画像用Transfomerと事前学習済みテキスト用Transformerの構成。後処理なしでsotaを達成とのこと。
      • SROIE task2ではsotaではなさそうだが相当高精度であることは確か。
    • リポジトリはhttps://github.com/microsoft/unilm/tree/master/trocrとのことだが現時点ではまだアップロードされていない。

Primer(PRIMitives searched transformER): 言語モデルのための効率的なアーキテクチャ

  • Primer: Searching for Efficient Transformers for Language Modeling [79.3]
    大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。 ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。 私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
    論文  参考訳(メタデータ)   (Fri, 17 Sep 2021 17:50:39 GMT)
    • Transformerの構造に手を入れ効率の高いアーキテクチャを進化的な手法で探索。500MパラメータのT5相当の実装で4.2倍の学習コスト削減を達成するPrimerというアーキテクチャを見つけたとの報告。主要な変更点は「Squared ReLU」と「MDHA: Multi-DConv-Head Attention (深さ方向のconvolution layerをQ, K, V projectionの後に配置)」。Primerはこの2点以外にも様々な修正が加えられているが、この変更のみを行ったバージョン(Primer-EZ)でも高い効果があるとのこと。著者はまずPrimer-EZで高速化効果を試し必要に応じて完全なPrimerを導入することを推奨している。
    • リポジトリはhttps://github.com/google-research/google-research/tree/master/primer

HyperCLOVA: 韓国の大規模事前学習モデル

  • What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [16.6]
    GPT-3は、数千億の大規模データに基づいて訓練された大規模言語モデル(LM)の、卓越したコンテキスト内学習能力を示す。 韓国中心の560Bトークンコーパスでトレーニングした82B GPT-3の韓国版、HyperCLOVAを紹介する。 我々は、プロンプトベースの学習のパフォーマンスの利点を示し、プロンプトエンジニアリングパイプラインにどのように組み込むことができるかを示す。
    論文  参考訳(メタデータ)   (Fri, 10 Sep 2021 03:32:19 GMT)
    • NAVERが構築した大規模事前学習モデルHyperCLOVAの論文。few-shotやPrompt tuningによる高い性能を確認。社内でHyperCLOVA StudioというNo Code AI paradigmを利用しているとのこと。

MATE(Multi-view Attention for Table transformer Efficiency): 大きなテーブルを含む文書をモデル化

  • MATE: Multi-view Attention for Table Transformer Efficiency [21.5]
    ウェブ上のリレーショナルテーブルの20%以上が20行以上の行を持っている。 現在のTransformerモデルは一般的に512トークンに制限されている。 本稿では,Webテーブルの構造をモデル化する新しいトランスフォーマーアーキテクチャであるMATEを提案する。
    論文  参考訳(メタデータ)   (Thu, 9 Sep 2021 14:39:30 GMT)
    • WEBページなどによくあるテーブル構造をモデル化可能な(シーケンス長が長く効率的な)transformerモデルを提案、HybridQAなどでsotaとのこと。
    • 一般的に表形式データが混在したWEBページの扱いは難しいのでこの研究には興味津々。

NumGPT: 数値の特性を明示的に扱う事前学習モデル

  • NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.9]
    テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。 具体的には、プロトタイプベースの数字埋め込みを利用して、数字の仮数をエンコードし、個別の埋め込み方法によって数字の指数をエンコードする。 数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
    論文  参考訳(メタデータ)   (Tue, 7 Sep 2021 15:06:12 GMT)
    • テキストの中の数値を通常の文字とは異なる扱いとする事前学習モデルの提案。数値関連のデータについて性能が向上したとのこと。
    • 機械翻訳でも数値の取り扱いに苦労することが多い。機械的に対訳ペアを生成したデータセットの多くが数値関連の問題を抱えていることからも、数値を別扱いするというのは良い方法のように思える。

CodeT5: コード理解と生成の両方をサポートする統一フレームワーク

  • CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation [36.5]
    我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。 我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
    論文  参考訳(メタデータ)   (Thu, 2 Sep 2021 12:21:06 GMT)
    • T5のアーキテクチャをプログラムコード用に拡張(展開)したモデルを提案、PLBARTなど先端モデルと比べても優れた性能を出したとのこと。
    • リポジトリはhttps://github.com/salesforce/CodeT5

Smart Bird: 効率的なTransformer

  • Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer [51.8]
    学習可能なスパースアテンションを持つ効率的かつ効果的なトランスフォーマーであるSmart Birdを提案する。 Smart Birdでは、まず1ヘッドの低次元変換器でスケッチされた注目行列を計算します。 次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 20 Aug 2021 14:22:00 GMT)
    • 先ほどのFastformerと同じ著者によるTransformerの効率化を扱った論文。こちらは低次元、1-headなTransformerを前段に入れself attention matrixから重要なトークンを抽出、multi-headなTrasnformerにつなぐ構成。
    • こちらの計算量はO(N^2 × d + N × K × D)とのことだが、次元dが通常のTrasnformerに比べて非常に小さいので効率的とのこと。要約性能はFastfomerに比べて優れているように見える。

Fastformer: 効率的で長いシーケンスを扱える構造

  • Fastformer: Additive Attention is All You Need [51.8]
    本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。 Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。 このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 20 Aug 2021 09:44:44 GMT)
    • Transformerの計算量 O(N^2 ×d)から O(N ×d)に抑えた構造、Fastformerを提案、長めのテキスト分類や要約タスクの長文対応で通常のTransformerやその効率化を狙った実装より性能が優れているよう。現時点でUniUM-FastformerがMIND Leaderboardでトップの性能。
    • query vectorとkey vectorの取り扱いを工夫しているがこの構造でも情報がうまく残るのが興味深い。

Mobile-Former: MobileNet + Transformer

  • Mobile-Former: Bridging MobileNet and Transformer [42.6]
    我々はMobileNetとTransformerの並列設計であるMobile-Formerについて述べる。 Mobile-Formerは計算効率が良いだけでなく、より表現力があり、低FLOPでMobileNetV3を上回っている。
    論文  参考訳(メタデータ)   (Thu, 12 Aug 2021 17:59:55 GMT)
    • 局所的な表現ではMobileNet、大域的な部分はTransformerと2つのモデルを併用することで効率的・高速だが性能の高いモデルを構築できたとの報告。
    • RELATED WORKにもある通りこのような構成は最近よく見かける。