コンテンツへスキップ
- An Empirical Study of Training Self-Supervised Visual Transformers [70.3]
self-supervisedな視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。ViTの学習における基礎的要素の影響について検討する。 不安定性は精度を低下させる主要な問題であり、明らかに良い結果によって隠すことができる。 これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 5 Apr 2021 17:59:40 GMT)- Facebookによる自己教師ありなVisual Transformer(ViT)の学習方法に関する論文。
- Can audio-visual integration strengthen robustness under multimodal attacks? [47.8]
マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。 我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。 攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 5 Apr 2021 16:46:45 GMT)- マルチモーダルな前提での敵対的攻撃。堅牢性を強化するとは限らない。。。