X-volution: Convolution + Self-attention

  • X-volution: On the unification of convolution and self-attention [52.8]
    本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。 提案したX-volutionは、非常に競争力のある視覚的理解の改善を実現する。
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 04:32:02 GMT)
    • 畳み込み + Self-attentionによって局所的および非局所的特徴相互作用を統一。ベースラインに対してimagenet分類における+1.2% top-1精度、+1.7 box ap、coco検出とセグメンテーションにおける+1.5 mask apを実現したとのこと。
    • 組み合わる系の成果。この手の話も増えていくのだろうと思う。

MERLOT: ビデオを用いた大規模事前学習

  • MERLOT: Multimodal Neural Script Knowledge Models [74.1]
    我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。 
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 17:57:39 GMT)
    • マルチモーダル事前学習モデル。ファインチューニングによって多くのタスクでsota。性能の向上幅も大きい。

会話型の質問回答タスクのサーベイ

  • Conversational Question Answering: A Survey [18.4]
    本調査は,会話質問回答(CQA)の最先端研究動向を包括的に概観する試みである。 この結果から,会話型AIの分野をさまざまな観点から活性化する1ターンから多ターンQAへの傾向が示唆された。
    論文  参考訳(メタデータ)   (Wed, 2 Jun 2021 01:06:34 GMT)
    • 会話関連の質問回答タスクのサーベイ。46ページと広範にわたるものであり、カテゴライズなども参考になる。