Data2vec: speech、vision、textで動作する自己教師有り学習

2vecの最終系かと思うData2vecが出ていた。Transformerをベースにタスク特有のエンコーディングを実施、objectiveは共通化されている状況でViT-B、wav2vec2/HuBERT、RoBERTaと競争的な性能とのこと。

論文はData2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (facebook.com)、リポジトリはfairseq/examples/data2vec at main · pytorch/fairseq · GitHub

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です