MERLOT: ビデオを用いた大規模事前学習

  • MERLOT: Multimodal Neural Script Knowledge Models [74.1]
    我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。 
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 17:57:39 GMT)
    • マルチモーダル事前学習モデル。ファインチューニングによって多くのタスクでsota。性能の向上幅も大きい。

クエリーベースのビデオ要約

  • DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization [127.2]
    DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。 DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。 MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
    論文  参考訳(メタデータ)   (Thu, 13 May 2021 17:33:26 GMT)
    • 究極的なマルチモーダルであると同時に、強化学習のフレームワークを利用して性能を出している点が興味深い。

画像+音声の自己教師あり物体検出、マルチモーダルなQA

  • Self-supervised object detection from audio-visual correspondence [101.5]
    我々は、教師なしで物体検出器を学習する問題に取り組む。 画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。物体検出と音源定位という課題において、従来の教師なし・弱教師付き検出器よりも優れる。 我々はまた、この検出器を1つの擬似クラスごとに1つのラベルで正解クラスに合わせることができ、飛行機や猫のような計器を超える一般的な物体を検出する方法を学ぶことができることを示す。
    論文  参考訳(メタデータ)   (Tue, 13 Apr 2021 17:59:03 GMT)
    • 映像+音声を用いる自己教師あり学習。なんとなく人間に近づいていっているような感がある。
  • MultiModalQA: Complex Question Answering over Text, Tables and Images [52.3]
    テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。 大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。 次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
    論文  参考訳(メタデータ)   (Tue, 13 Apr 2021 09:14:28 GMT)
    • マルチモーダルなQAデータセット。約3万サンプル、36%はクロスモーダルな推論が必要な難しいデータ。現時点では機械に比べ人間のパフォーマンスは圧倒的に高い。https://allenai.github.io/multimodalqa/でデータを公開してくれるとのこと。

Visual Transformer / マルチモーダルな攻撃

  • An Empirical Study of Training Self-Supervised Visual Transformers [70.3]
    self-supervisedな視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。ViTの学習における基礎的要素の影響について検討する。 不安定性は精度を低下させる主要な問題であり、明らかに良い結果によって隠すことができる。 これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 5 Apr 2021 17:59:40 GMT)
    • Facebookによる自己教師ありなVisual Transformer(ViT)の学習方法に関する論文。
  • Can audio-visual integration strengthen robustness under multimodal attacks? [47.8]
    マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。 我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。 攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 5 Apr 2021 16:46:45 GMT)
    • マルチモーダルな前提での敵対的攻撃。堅牢性を強化するとは限らない。。。