Data2vec: speech、vision、textで動作する自己教師有り学習

2vecの最終系かと思うData2vecが出ていた。Transformerをベースにタスク特有のエンコーディングを実施、objectiveは共通化されている状況でViT-B、wav2vec2/HuBERT、RoBERTaと競争的な性能とのこと。

論文はData2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (facebook.com)、リポジトリはfairseq/examples/data2vec at main · pytorch/fairseq · GitHub

Table-and-Text Open Domain QAに対するCARP(ChAincentric Reasoning and Pre-training Framework)

  • Reasoning over Hybrid Chain for Table-and-Text Open Domain QA [69.8]
    我々はChAin中心の推論と事前学習フレームワーク(CARP)を提案する。 CARPはハイブリッドチェーンを使用して、質問応答のための表とテキスト間の明示的な中間推論プロセスをモデル化する。 また,クロスモダリティ推論プロセスの同定において,事前学習モデルを強化するために,新しいチェーン中心の事前学習手法を提案する。
    論文  参考訳(メタデータ)   (Sat, 15 Jan 2022 16:11:55 GMT)

Omnivore: 多くのモダリティで効果的なモデル

  • Omnivore: A Single Model for Many Visual Modalities [47.9]
    以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。 同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Jan 2022 18:58:03 GMT)
    • 画像関連のデータ(普通の画像、動画、シングルビューの3D)について共通的に動作可能な(複数のモダリティに対応可能な)モデルの提案。リポジトリを見ると複数のタスクでSoTAを達成している。各モダリティ専用の構造でないにもかかわらず優れた性能を出せるのは驚き。