- AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [57.4]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecがほとんどの設定で既存のメソッドよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (Fri, 10 Feb 2023 02:55:52 GMT) - 音声・画像をマスクして構築するマルチモーダルな2vec
- ASR, VSR, AVSRで統合的に優れた性能、既存モデルをアウトパフォームとのこと