Visual Transformersのサーベイ

  • A Survey of Visual Transformers [30.1]
    注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。 コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。 我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
    論文  参考訳(メタデータ)   (Thu, 11 Nov 2021 07:56:04 GMT)
    • 画像分野におけるTransformerのサーベイ。

LiT-tuning(Locked-image Text tuning): 効果的なゼロショット

  • LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.8]
    『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。 LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
    論文  参考訳(メタデータ)   (Mon, 15 Nov 2021 18:53:48 GMT)
    • 40億のイメージ-テキストペアを用いたLiT-tuningによりゼロショットImageNetで84.5%の精度を達成。
    • 画像モデル部分をロックして学習することが効果的とのことで「画像-テキストデータは、自然言語と視覚世界の対応を学ぶのに最適であるが、最先端の画像表現を学ぶためには正確かつクリーンではないかもしれない」との指摘。

ソーシャルレビューの不正検知のサーベイ

  • Social Fraud Detection Review: Methods, Challenges and Analysis [42.3]
    レビューはウェブを支配しており、製品情報の信頼できる情報源となっている。 企業は、単一のユーザ、ユーザグループ、あるいは不正コンテンツを生成するために訓練されたボットを使用して、偽情報を広めるために、ソーシャル情報を利用する。 多くの研究がユーザ行動に基づくアプローチを提案し、不正検出の課題に対処するためのテキストをレビューした。
    論文  参考訳(メタデータ)   (Wed, 10 Nov 2021 11:25:20 GMT)
    • ボットなどで行われるレビューの不正を検知する研究のサーベイ。時系列で研究課題やアプローチがまとめられているのが分かりやすい。

BitextEdit: 不適切な対訳ペアを修正して利用

  • BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine Translation [53.6]
    自動編集によりマイニングした対訳ペアを改良することを提案する。 提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングバイテキストの品質を向上することを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 12 Nov 2021 16:00:39 GMT)
    • CCMatrixなど自動で作成された対訳ペア(Bitext)には問題のあるテキストが存在する。それらをフィルタリングするのが通常の対応だが、データ数の減少が問題となる。データフィルタリングするのではなく編集することによって翻訳モデルの性能が向上できたとの報告。
      • 不適切になった理由によっては有効そうという印象。

AnswerSumm: 回答を要約するデータセット

  • AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization [73.9]
    Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。 回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。 本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
    論文  参考訳(メタデータ)   (Thu, 11 Nov 2021 21:48:02 GMT)
    • Community Question Answeringの回答を要約したデータセット。回答を文単位でラベリング、文をクラスタリング、クラスタ内を要約、クラスタ内の要約を統合というパイプラインを経ておりサイズは4.6K。人がアノテーションしたデータとして大規模とのこと。
    • リポジトリはhttps://github.com/alex-fabbri/answersumm、データセットもダウンロード可能

MTVM(Multimodal Transformer with Variable-length Memory)を用いたナビゲーション

  • Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
    VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。 近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。 視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
    論文  参考訳(メタデータ)   (Wed, 10 Nov 2021 16:04:49 GMT)
    • VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。

Masked Autoencoders

  • Masked Autoencoders Are Scalable Vision Learners [61.0]
    Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。 我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。 これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 11 Nov 2021 18:46:40 GMT)
    • Masked Autoencoderという自然言語処理を彷彿とさせる学習法の提案。ImageNet-1KでSoTAとのこと。

Green Deep Learningのサーベイ

  • A Survey on Green Deep Learning [25.7]
    本稿では,グリーンディープラーニング技術の発展を体系的にレビューすることに焦点を当てる。 提案手法は,(1)コンパクトネットワーク,(2)エネルギー効率のトレーニング戦略,(3)エネルギー効率の推論アプローチ,(4)データ利用率の4つのカテゴリに分類される。
    論文  参考訳(メタデータ)   (Wed, 10 Nov 2021 02:28:08 GMT)
    • 最近よく話題になるDeepLearningにおけるカーボンフットプリントのようなAIと環境との関わりのサーベイ。アーキテクチャ、学習、推論などモデル構築要素の他、データの使い方(Active LearningやFew shotなど)についても扱っている。各チャプターの整理図が良い感じでありがたい。

環境を考慮したAutoML

  • Towards Green Automated Machine Learning: Status Quo and Future Directions [55.4]
    AutoMLは数百のコントリビューションでホットな研究トピックになっている。 非常に資源集約的であることも知られており、批判の要点の1つである。 本稿では,この問題に対するAutoML研究者の意識を高め,治療の可能性について詳しく述べる。
    論文  参考訳(メタデータ)   (Wed, 10 Nov 2021 18:57:27 GMT)
    • AutoMLにおける環境考慮に関してまとめた論文、定量化への方針、 アプローチ・設計、ベンチマーク、透明性などについて詳細に解説している。AIと環境保護へのかかわりを知るにも良い内容。

Visual Deep MLPのサーベイ

  • Are we ready for a new paradigm shift? A Survey on Visual Deep MLP [33.0]
    初めて出現したニューラルネットワーク構造である多層パーセプトロン(MLP)は大きなヒットとなった。 ハードウェア・コンピューティングのパワーとデータセットのサイズに制約され、かつては何十年にもわたって沈んだ。 我々は、手動の特徴抽出から、局所受容野を持つCNNへのパラダイムシフト、さらにグローバル受容野を持つTransformへのパラダイムシフトを目撃した。
    論文  参考訳(メタデータ)   (Sun, 7 Nov 2021 12:02:00 GMT)
    • CNN、Transformer(ViTなど)、MLP(MLP-Mixerなど)と群雄割拠な感のある画像処理に対するMLP中心のサーベイ。