Transformerによる映像-言語の事前学習モデルのサーベイ

Survey: Transformer based Video-Language Pre-training [28.9]
本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法を概観することを目的としている。まず、注意機構、位置符号化などを含む背景知識を紹介する。シングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
論文参考訳（メタデータ）参考訳（全文） (Tue, 21 Sep 2021 02:36:06 GMT)
- 映像と言語を扱うTransformerの事前学習に関するサーベイ。モデルだけではなくデータセットも整理されている。16ページと短めだがとても参考になる。CC BYと翻訳可能なライセンスであることもありがたい。（注：残念ながらFuguMTが綺麗に訳せている事は意味しない）

コメントを残す

コメントを残す コメントをキャンセル