Transformerによる映像-言語の事前学習モデルのサーベイ

  • Survey: Transformer based Video-Language Pre-training [28.9]
    本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法を概観することを目的としている。 まず、注意機構、位置符号化などを含む背景知識を紹介する。 シングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 21 Sep 2021 02:36:06 GMT)
    • 映像と言語を扱うTransformerの事前学習に関するサーベイ。モデルだけではなくデータセットも整理されている。16ページと短めだがとても参考になる。CC BYと翻訳可能なライセンスであることもありがたい。(注:残念ながらFuguMTが綺麗に訳せている事は意味しない)

TrOCR: TransformerによるOCR

  • TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models [47.5]
    本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。 TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。 実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 16:01:56 GMT)
    • CNN+RNNで構成されることの多いOCRをTransformerを用いて改善。事前学習済み画像用Transfomerと事前学習済みテキスト用Transformerの構成。後処理なしでsotaを達成とのこと。
      • SROIE task2ではsotaではなさそうだが相当高精度であることは確か。
    • リポジトリはhttps://github.com/microsoft/unilm/tree/master/trocrとのことだが現時点ではまだアップロードされていない。