Swin Transformer V2

  • Swin Transformer V2: Scaling Up Capacity and Resolution [45.5]
    我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536×1,536解像度の画像でトレーニングできるようにする。 キャパシティと解像度をスケールアップすることで、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 18 Nov 2021 18:59:33 GMT)
    • Object Detectionなどで有名なSwin Transformerのversion 2(アーキテクチャにも手が入れられている)。下記リポジトリにSoTAが並ぶ優れた性能。
    • リポジトリはhttps://github.com/microsoft/Swin-Transformer

XLS-R(Cross-lingual Speech Representation): 多言語音声の大規模事前学習

  • XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0]
    XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 17 Nov 2021 18:49:42 GMT)
    • 巨大モデルで音声翻訳、音声認識、言語認識、話者認識など様々なタスクで優れた性能。英語方向のCoVoST-2でSoTAなど印象的な結果。
      • NLPの巨大言語モデルを見るに違和感はないが、巨大化はどこまで行くのだろう。。。
    • リポジトリはhttps://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr

ビジネス文書を対象としたAI適用のサーベイ

  • Document AI: Benchmarks, Models and Applications [35.5]
    ドキュメントAI(Document AI)とは、ビジネス文書を自動的に読み、理解し、分析する技術である。 近年、ディープラーニング技術の人気は、Document AIの開発を大きく進めている。 本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。
    論文  参考訳(メタデータ)   (Tue, 16 Nov 2021 16:43:07 GMT)
    • ドキュメントを対象とした分析のサーベイ。レイアウト分析、情報抽出、Visual Question Answeringなど様々なタスクの概要とベンチマーク、モデル等を解説しており参考になる。できることは増えてきているので応用が進んでほしい。
    • サーベイ中、日本語のデータセットはGitHub – doc-analysis/XFUND: XFUND: A Multilingual Form Understanding Benchmarkのみ。ほとんど英語というのは残念。

Computer Visionにおけるアテンションのサーベイ

  • Attention Mechanisms in Computer Vision: A Survey [75.6]
    本稿では,コンピュータビジョンにおける様々な注意機構について概観する。 チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。 我々は注意機構研究の今後の方向性を提案する。
    論文  参考訳(メタデータ)   (Mon, 15 Nov 2021 09:18:40 GMT)

INTERN: 強力なGeneral Vision Model

  • INTERN: A New Learning Paradigm Towards General Vision [117.3]
    我々はInterNという新しい学習パラダイムを開発した。 複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。 ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
    論文  参考訳(メタデータ)   (Tue, 16 Nov 2021 18:42:50 GMT)
    • 大規模LMのようなGeneral Vision Modelを構築することで少数の学習データで優れた性能を発揮するモデルを作れるとの報告。GV-D:General Vision Dataとして100億サンプル、119Kコンセプトのデータセット、 GV-A: General Vision Architecture としてTransformer+Convolutionalな構造、GV-B: General Vision Benchmark として26のタスクを用いて段階的な学習を行うことでCLIPを超える強力なゼネラリストモデルを構築したとのこと。
    • 実装等公開予定とのことで詳細はそこで確認したい。

GameにおけるAIのサーベイ

  • AI in Games: Techniques, Challenges and Opportunities [40.9]
    Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。 本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
    論文  参考訳(メタデータ)   (Mon, 15 Nov 2021 09:35:53 GMT)
    • 碁のようなボードゲーム、テキサス・ホールデムのようなカードゲーム、FPS、リアルタイムストラテジーゲームと4種類のゲームとそのAIに関するサーベイ。ゲームは意思決定と密接に関わっており、応用範囲は広い印象。

Visual Transformersのサーベイ

  • A Survey of Visual Transformers [30.1]
    注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。 コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。 我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
    論文  参考訳(メタデータ)   (Thu, 11 Nov 2021 07:56:04 GMT)
    • 画像分野におけるTransformerのサーベイ。

LiT-tuning(Locked-image Text tuning): 効果的なゼロショット

  • LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.8]
    『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。 LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
    論文  参考訳(メタデータ)   (Mon, 15 Nov 2021 18:53:48 GMT)
    • 40億のイメージ-テキストペアを用いたLiT-tuningによりゼロショットImageNetで84.5%の精度を達成。
    • 画像モデル部分をロックして学習することが効果的とのことで「画像-テキストデータは、自然言語と視覚世界の対応を学ぶのに最適であるが、最先端の画像表現を学ぶためには正確かつクリーンではないかもしれない」との指摘。

ソーシャルレビューの不正検知のサーベイ

  • Social Fraud Detection Review: Methods, Challenges and Analysis [42.3]
    レビューはウェブを支配しており、製品情報の信頼できる情報源となっている。 企業は、単一のユーザ、ユーザグループ、あるいは不正コンテンツを生成するために訓練されたボットを使用して、偽情報を広めるために、ソーシャル情報を利用する。 多くの研究がユーザ行動に基づくアプローチを提案し、不正検出の課題に対処するためのテキストをレビューした。
    論文  参考訳(メタデータ)   (Wed, 10 Nov 2021 11:25:20 GMT)
    • ボットなどで行われるレビューの不正を検知する研究のサーベイ。時系列で研究課題やアプローチがまとめられているのが分かりやすい。

BitextEdit: 不適切な対訳ペアを修正して利用

  • BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine Translation [53.6]
    自動編集によりマイニングした対訳ペアを改良することを提案する。 提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングバイテキストの品質を向上することを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 12 Nov 2021 16:00:39 GMT)
    • CCMatrixなど自動で作成された対訳ペア(Bitext)には問題のあるテキストが存在する。それらをフィルタリングするのが通常の対応だが、データ数の減少が問題となる。データフィルタリングするのではなく編集することによって翻訳モデルの性能が向上できたとの報告。
      • 不適切になった理由によっては有効そうという印象。