因果性を用いた敵対的攻撃対策

  • Adversarial Robustness through the Lens of Causality [105.5]
    ディープニューラルネットワークの敵対的脆弱性は、機械学習において大きな注目を集めている。 我々は、因果関係を敵対的脆弱性の軽減に組み込むことを提案する。 我々の手法は、敵の脆弱性を緩和するために因果性を利用する最初の試みと見なすことができる。
    論文  参考訳(メタデータ)   (Fri, 11 Jun 2021 06:55:02 GMT)
    • 因果グラフを敵対的攻撃の防御に用いるという報告。敵対的攻撃は自然なデータ分布に対する特定の介入とみなせる、というのはその通りでベンチマーク上も効果があるのが興味深い。

ImaginE: 想像力を持った評価指標

  • ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation [53.6]
    我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。 いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 17:59:52 GMT)
    • 文章生成タスクの評価指標としてマルチモーダル性を利用しようという研究。BERTScoreの発展形のようなもの。テキストから想像される画像を使っての評価が人の評価に近い場合があるというのは興味深い(BERT Scoreで良さそうだが・・・)。発想&論文中に出てくる画像は非常に面白い。

DUO(Detecting Underwater Objects)のデータセット・ベンチマーク

  • A Dataset And Benchmark Of Underwater Object Detection For Robot Picking [29.0]
    我々は,すべての関連するデータセットの収集と再アノテーションに基づいて,データセット,水中オブジェクトの検出(DUO)およびそれに対応するベンチマークを紹介する。 DUOはより合理的な注釈を持つ多様な水中画像のコレクションを含んでいる。 対応するベンチマークは、学術研究および産業応用のためのSOTAの効率と精度の指標を提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 10 Jun 2021 11:56:19 GMT)
    • 水中での物体検出タスクのデータセット。代表的な手法のベンチマークも記載されている。水中での物体認識においては、深いネットワーク構造が役に立たないように見えるという指摘が興味深い。
    • データセットはhttps://github.com/chongweiliuで公開予定とのこと。

MusicBERT: 音楽を対象とした事前学習モデル

  • MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.9]
    シンボリック・ミュージックの理解とは、シンボリック・データから音楽を理解することを指す。 MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 10:13:05 GMT)
    • BERTを音楽を対象に利用、音楽理解タスクでSOTA。マスキング戦略など音楽特有の対応を行っている。

Decomposed attentionを使ったマルチリンガル表現

  • Learning Multilingual Representation for Natural Language Understanding with Enhanced Cross-Lingual Supervision [42.7]
    本稿では,MA(Mixed Attention)の代替として,DA(Decomposed attention)というネットワークを提案する。 DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。 様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
    論文  参考訳(メタデータ)   (Wed, 9 Jun 2021 16:12:13 GMT)
    • mBERTのようなマルチリンガルモデルによってゼロショットで他言語に対応可能なモデルを構築できることが知られている。バイリンガルな言語間コーパス(翻訳文によるコーパス)の情報を活用してより良い事前学習モデルを作ったという報告。

cLang-8: 文法誤り訂正タスクSOTA&データセット

  • A Simple Recipe for Multilingual Grammatical Error Correction [6.3]
    本稿では,最新の多言語文法的誤り訂正(GEC)モデルを学習するためのレシピを提案する。 まず,多数の合成例を生成するための言語に依存しない手法を提案する。 第2の要素は、大規模多言語言語モデルを使用することである。 
    論文  参考訳(メタデータ)   (Mon, 7 Jun 2021 17:47:04 GMT)
    • 大規模事前学習モデルmT5+データクリーニングによってGECでSOTA。データ数が一定以上であればクリーニングは効果的、モデル規模の増加は性能向上に効果的であったと意外性はないが重要な結果。
    • データセット等はhttps://github.com/google-research-datasets/clang8からアクセス可能とのこと。

Scaling Vision Transformers: 画像の大規模スケーリング

  • Scaling Vision Transformers [82.1]
    本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。 我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。 このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
    論文  参考訳(メタデータ)   (Tue, 8 Jun 2021 17:47:39 GMT)
    • 自然言語処理で効果的だった大規模化を画像で実施したもの。ImageNetでSOTAと効果があるよう。

LUSS 教師無し学習前提のセマンティックセグメンテーションのデータセット

  • Large-scale Unsupervised Semantic Segmentation [163.4]
    本稿では, 大規模教師無しセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。 ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。 
    論文  参考訳(メタデータ)   (Sun, 6 Jun 2021 15:02:11 GMT)
    • 教師無し前提のセマンティックセグメンテーションタスク。規模が大きく様々な場所で用いられそう。

Deep Neural Auctions (DNA): ディープラーニングでオークションの最適化

  • Neural Auction: End-to-End Learning of Auction Mechanisms for E-Commerce Advertising [42.7]
    我々は,オークションからコンテキストを効率的に抽出する深層モデルを開発し,オークションデザインのための豊富な特徴を提供する。 タオバオのEコマース広告システムにDNAが配備されている。 
    論文  参考訳(メタデータ)   (Mon, 7 Jun 2021 13:20:40 GMT)
    • 広告のオークションにディープラーニングモデルを開発、適用したという報告。様々な指標を最適化するには従来の手法より優れているとのこと。

X-volution: Convolution + Self-attention

  • X-volution: On the unification of convolution and self-attention [52.8]
    本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。 提案したX-volutionは、非常に競争力のある視覚的理解の改善を実現する。
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 04:32:02 GMT)
    • 畳み込み + Self-attentionによって局所的および非局所的特徴相互作用を統一。ベースラインに対してimagenet分類における+1.2% top-1精度、+1.7 box ap、coco検出とセグメンテーションにおける+1.5 mask apを実現したとのこと。
    • 組み合わる系の成果。この手の話も増えていくのだろうと思う。