MLP? CNN? Transformer?

  • Can Attention Enable MLPs To Catch Up With CNNs? [33.7]
    多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、トランスフォーマーなど、学習アーキテクチャの簡単な歴史を提供する。 新たに提案された4つのアーキテクチャの共通点について検討し、今後の研究への刺激を期待する。
    論文  参考訳(メタデータ)   (Mon, 31 May 2021 16:08:46 GMT)
    • 最近のアーキテクチャを概説する論文。Long distance interactions, Local semantic information, Residual connections, Reduced inductive biasなど重要要素の取り扱いが記載されており、新しいアーキテクチャは従来のMLPではなく大きな進歩があると結論している。

ユーモア認識モデル

  • Laughing Heads: Can Transformers Detect What Makes a Sentence Funny? [18.7]
    我々は、最小組の文からなるデータセット上で、トランスフォーマーに基づくユーモア認識モデルを訓練し、分析する。 一致したデータセットは以前のデータセットよりもはるかに難しいが、トランスフォーマーベースのモデルは、高精度(78%)の一致したペアでユーモラスな文を認識する。 最も顕著なことは、訓練時にこの情報にアクセスしなくても、一つの注意頭がテスト文をユーモラスにする単語を認識することを学ぶという明確な証拠を見つけることである。
    論文  参考訳(メタデータ)   (Wed, 19 May 2021 14:02:25 GMT)
    • Transformerを用いたユーモアの認識。fine tuning後のモデルにユーモアを認識するためのヘッドができたという点が興味深い。
    • 下ネタ認識(わいせつ/非わいせつ)は得意だが、善悪・暴力/非暴力なユーモアの認識に苦労するのも小学生のようで面白い。

Self-attentionは重要でない?

  • Pay Attention to MLPs [84.5]
    gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。 我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。 一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
    論文  参考訳(メタデータ)   (Mon, 17 May 2021 17:55:04 GMT)
    • 「Are Pre-trained Convolutions Better than Pre-trained Transformers? (このBlogの記事)」と似たような話だが、一定規模・計算量があればTransformerだからという優位性はないのかも。

Transformer vs CNN

  • Are Pre-trained Convolutions Better than Pre-trained Transformers? [42.3]
    CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。 本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
    論文  参考訳(メタデータ)   (Fri, 7 May 2021 15:13:30 GMT)
    • 事前学習を用いた学習でCNNの方がTransformerより優れていることがあるとの報告。Transformer一択という今の雰囲気に一石を投じる内容。

手書き文字の生成、データ拡張

  • Handwriting Transformers [98.4]
    本稿では, トランスフォーマーを用いた手書きテキスト画像生成手法であるHWTを提案する。HWTは,自己アテンション機構を用いて,スタイル例内の長短範囲関係をキャプチャし,グローバルなスタイルパターンとローカルなスタイルパターンの両方を符号化する。提案したHWTは, 自己認識機構を用いて, スタイルの例における長短距離関係をキャプチャする。 提案するHWTは,現実的な手書きテキスト画像を生成する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 8 Apr 2021 17:59:43 GMT)
    • Transformerを用いた手書きテキストの生成。直感的にはシーケンス的な情報も重要なのでこの構造は有効なのだと思う。PDFにあるサンプルが興味深い。
  • InAugment: Improving Classifiers via Internal Augmentation [14.3]
    本稿では,画像内部統計を利用した新しい拡張操作であるinaugmentを提案する。 キーとなるアイデアは、イメージ自体からパッチをコピーし、拡張操作を適用し、それらを同じイメージ上のランダムな位置にペーストすることだ。imagenetデータセットにおけるresnet50 と efficientnet-b3 top-1 の精度を,事前拡張法と比較して向上させた。 最後に,InAugmentを用いた畳み込みニューラルネットワークのトレーニングにより,モデルの精度と信頼性が向上するだけでなく,分布外画像の性能が向上することが示唆された。
    論文  参考訳(メタデータ)   (Thu, 8 Apr 2021 15:37:21 GMT)
    • データ拡張の話。この手のData augumentationは精度向上テクニックとして有効なこともあるという印象だが、論文中の様々な手法との比較が参考になる。コードはgithubに公開予定とのこと。

Visual Transformer / マルチモーダルな攻撃

  • An Empirical Study of Training Self-Supervised Visual Transformers [70.3]
    self-supervisedな視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。ViTの学習における基礎的要素の影響について検討する。 不安定性は精度を低下させる主要な問題であり、明らかに良い結果によって隠すことができる。 これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 5 Apr 2021 17:59:40 GMT)
    • Facebookによる自己教師ありなVisual Transformer(ViT)の学習方法に関する論文。
  • Can audio-visual integration strengthen robustness under multimodal attacks? [47.8]
    マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。 我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。 攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 5 Apr 2021 16:46:45 GMT)
    • マルチモーダルな前提での敵対的攻撃。堅牢性を強化するとは限らない。。。