このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

Visual Transformer / マルチモーダルな攻撃

  • An Empirical Study of Training Self-Supervised Visual Transformers [70.3]
    self-supervisedな視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。ViTの学習における基礎的要素の影響について検討する。 不安定性は精度を低下させる主要な問題であり、明らかに良い結果によって隠すことができる。 これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 5 Apr 2021 17:59:40 GMT)
    • Facebookによる自己教師ありなVisual Transformer(ViT)の学習方法に関する論文。
  • Can audio-visual integration strengthen robustness under multimodal attacks? [47.8]
    マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。 我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。 攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 5 Apr 2021 16:46:45 GMT)
    • マルチモーダルな前提での敵対的攻撃。堅牢性を強化するとは限らない。。。