CSRA(Class-Specific Residual Attention): マルチラベル画像認識モデルへのシンプルかつ強力なモジュール

  • Residual Attention: A Simple but Effective Method for Multi-Label Recognition [29.2]
    クラス固有残差注意(CSRA)という,恥ずかしいほど単純なモジュールを提案する。 CSRAは、単純な空間的注意スコアを提案し、クラスに依存しない平均プール機能と組み合わせることで、各カテゴリのクラス固有の特徴を生成する。 4行のコードだけで、CSRAは追加のトレーニングなしで、さまざまな事前訓練されたモデルやデータセットに対して一貫した改善をもたらす。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 08:45:57 GMT)
    • an embarrassingly simple module(恥ずかしいほどシンプルなモジュール)と書かれているように下記のとてもシンプルなモジュールを入れるだけでマルチラベル画像認識モデルの性能が向上するとした論文。予測時に入れるだけでトレーニングも不要と驚きの性能。動作に関する分析も行っている。
      • モジュールのコード(論文より引用)
        y_raw = FC(x).flatten(2)
        y_avg = torch.mean(y_raw, dim=2)
        y_max = torch.max(y_raw, dim=2)[0]
        score = y_avg + Lambda * y_max
      • Lambdaはハイパーパラメータ

GAN Sketching: ユーザのスケッチに適合した画像生成GAN作成

  • Sketch Your Own GAN [36.8]
    本稿では1つ以上のスケッチでGANを書き換える手法であるGAN Sketchingを提案する。 我々は、ドメイン間の敵対的損失を通じて、ユーザスケッチにマッチするようにモデルの出力を奨励する。 提案手法は,写実性や多様性を保ちながら,スケッチで指定した形状やポーズに適合するGANを成形できることを示した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 5 Aug 2021 17:59:42 GMT)
    • 1枚程度のスケッチからそれに適合するようにモデルのweightを変更しGANモデル自体を生成するという論文。複雑なポーズの指定や独特なスタイルでのスケッチではうまく動かないという失敗事例も興味深い結果。プロジェクトサイトの独特なスケッチをみて何となく納得した。
    • プロジェクトサイトはhttps://peterwang512.github.io/GANSketching/、リポジトリはhttps://github.com/peterwang512/GANSketching(現時点で公開予定)
      • プロジェクトサイトにはたまに怖い画像がある。。。

Poison Ink: 目に見えないバックドア攻撃

  • Poison Ink: Robust and Invisible Backdoor Attack [122.5]
    我々はポイズン・インクと呼ばれる頑健で目に見えないバックドア攻撃を提案する。 具体的には、まず、画像構造を標的の中毒領域として利用し、それらを毒インク(情報)で満たしてトリガーパターンを生成する。 既存の一般的なバックドア攻撃方法と比較して、Poison Inkはステルスネスとロバストネスの両方で優れている。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 09:52:49 GMT)
    • 画像の構造(物体の輪郭)に情報を埋め込んだバックドア攻撃の提案。防御手法の多くが仮定している「静的パッチが埋め込まれた状況」とは異なり、動的な場所のため防御が難しいとのこと。
    • 論文中にも書かれている通り「DNNは浅い層で構造を捉えやすいが、最終的にはテクスチャ情報を分類の重要な手掛かりにしている」という特徴をうまく利用している。

I2V-GAN:infrared-to-visible-GAN、赤外線映像から可視光映像への変換

  • I2V-GAN: Unpaired Infrared-to-Visible Video Translation [14.2]
    本稿では,赤外線映像の可視光映像を生成するために,赤外線可視(I2V)ビデオ翻訳方式I2V-GANを提案する。 本モデルでは,1)実物に類似した合成フレームを生成するための対角的制約,2)効果的なコンテンツ変換のための知覚的損失に対する循環的整合性,3)ドメイン内およびドメイン内における相似性制約,の3つの制約を重んじる。 実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。
    論文  参考訳(メタデータ)   (Wed, 4 Aug 2021 05:24:30 GMT)
  • 赤外線の映像から可視光の映像に変換するモデルの提案。赤外線可視光変換ネットワークI2V-GANは優れた性能を出したとのこと。本件に使用した12 CLIP、24kフレームのデータセットもIRVIという名前で公開されている。
  • コードとデータセットはhttps://github.com/BIT-DA/I2V-GANで公開されている。

InferWiki: Knowledge Graph Completion(知識グラフの補完)データセット

  • Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion [79.1]
    InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。 各テストサンプルは、トレーニングセットの支持データで予測可能である。 実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
    論文  参考訳(メタデータ)   (Tue, 3 Aug 2021 09:51:15 GMT)
    •  Link Prediction、Triple Classificationタスクを想定したデータセットとベンチマークの提案。既存データセットには予測不可能なtripleや意味のないtripleがあり、構築プロセスに問題があると指摘。予測可能性を保証するため学習/テストデータをランダムスプリットにより作るのではなく一定のルールによりスプリット、手動でアノテーションされたnegativeやunknownの情報を提供、様々な推論パターンを加えるなど工夫したデータセットになっているとのこと。
    • リポジトリはhttps://github.com/TaoMiner/inferwiki

Perceiver IO: 様々な入出力を扱う汎用アーキテクチャ

  • Perceiver IO: A General Architecture for Structured Inputs & Outputs [84.6]
    Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟にクエリすることを学ぶ。 このモデルは、高度に構造化された出力空間を持つタスクに対して強い結果を得る。 Perceiver IOは、GLUE言語ベンチマークでTransformerベースのBERTベースラインにマッチする。
    論文  参考訳(メタデータ)   (Mon, 2 Aug 2021 17:18:43 GMT)
    • 入力サイズと出力サイズの両方で線形にスケーリングしながら,汎用的な入出力を処理できるアーキテクチャであるPerceiver IOを提案。様々なタスク(自然言語処理、Optical Flow、Multimodal autoencoding、強化学習(StarCraft /AlphaStar))で優れた性能を達成したとのこと。
    • Perceiverの提案はPerceiver: General Perception with Iterative Attention、Transformerを基盤とした構成だが大きな入力・より深いネットワークを構成可能とのことで今後流行るかもしれない。

BERTを利用したテキスト分析を通した社会科学の研究

  • Changes in European Solidarity Before and During COVID-19: Evidence from a Large Crowd- and Expert-Annotated Twitter Dataset [77.3]
    我々は,NLPにおける教師付き機械学習の新たな課題として,社会的連帯という社会科学的概念とその反対である反連帯の概念を導入する。 我々は,複数のアノテータと2つのアノテーションアプローチ(専門家対群衆)を利用して2.3kの英語とドイツ語のつぶやきをアノテーションした。 これらのアノテーションを使って、複数のデータ拡張戦略でBERTモデルをトレーニングし、2019年9月から2020年12月までに27万以上のツイートを自動的にラベル付けし、ヨーロッパの言論が、時間とともにどのように発展していくかに関して評価する。
    論文  参考訳(メタデータ)   (Mon, 2 Aug 2021 17:03:12 GMT)
    • 一部のデータを人の手でアノテーション、BERT等を活用したモデルを訓練し、アノテーション対象外の大量のデータにラベルを付与、その結果を分析するという論文。実務的にもよく用いられる手法であり、有効な分析プロセスである。
    • 専門知識を持つ人とクラウドワーカーの結果を比較するなど、実用するうえで参考になる論文だと思う。

ゼロショットでの文章リライト

  • Towards Universality in Multilingual Text Rewriting [9.0]
    本モデルでは、英語の見習いのみを用いて、非英語言語でゼロショットの感情伝達を行うことができることを示す。 次に、我々のモデルが複数の属性を同時に変更できることを示します。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 16:48:04 GMT)
    • 少ない英語の事例のみを用いることで英語以外の言語でテキストのリライトができるモデルを構築できたとの報告。論文中の日本語の例が興味深い。
    • 翻訳モデルを中間に挟むのは現実的ではあると思うが、このようにゼロショットで結果を出すマルチリンガルモデルには未来を感じる。

難易度を考慮した機械翻訳の評価

  • Difficulty-Aware Machine Translation Evaluation [20.0]
    本稿では,新しい難易度対応機械翻訳評価指標を提案する。 ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。 提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 02:45:36 GMT)
    • BERTScore をベースに翻訳の難しさ(複数翻訳モデルの一致の悪さ)を考慮したDifficulty-Aware BERTScoreを定義、評価指標として有効に動作することを検証した論文。よく用いられるBLEUは翻訳の品質評価において良好な結果を示さないことが分かっており、自動評価指標の開発は重要である。品質評価において難易度の考慮は自然な発想であり、本論文の難易度の定義も違和感がない。良さそうな指標だと思う。
    • ソースコード等はhttps://github.com/NLP2CT/Difficulty-Aware-MT-Evaluationで公開されている。

メールスレッドの抽象型要約

  • EmailSum: Abstractive Email Thread Summarization [105.5]
    我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。 このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。 本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
    論文  参考訳(メタデータ)   (Fri, 30 Jul 2021 15:13:14 GMT)
  • メールスレッド要約のためのデータセットと様々なモデルの評価結果を報告した論文。Extractiveな要約手法、Abstractiveな要約手法の代表的なものに加え、ラベル無しデータを用いるSemi-supervisedな手法も試している。結果的にT5が良好な結果をしめしたとのこと(Semi-supervisedな手法が勝っている評価指標もある)
  • リポジトリはhttps://github.com/ZhangShiyue/EmailSum