Scaling Vision Transformers: 画像の大規模スケーリング

  • Scaling Vision Transformers [82.1]
    本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。 我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。 このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
    論文  参考訳(メタデータ)   (Tue, 8 Jun 2021 17:47:39 GMT)
    • 自然言語処理で効果的だった大規模化を画像で実施したもの。ImageNetでSOTAと効果があるよう。

LUSS 教師無し学習前提のセマンティックセグメンテーションのデータセット

  • Large-scale Unsupervised Semantic Segmentation [163.4]
    本稿では, 大規模教師無しセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。 ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。 
    論文  参考訳(メタデータ)   (Sun, 6 Jun 2021 15:02:11 GMT)
    • 教師無し前提のセマンティックセグメンテーションタスク。規模が大きく様々な場所で用いられそう。

Deep Neural Auctions (DNA): ディープラーニングでオークションの最適化

  • Neural Auction: End-to-End Learning of Auction Mechanisms for E-Commerce Advertising [42.7]
    我々は,オークションからコンテキストを効率的に抽出する深層モデルを開発し,オークションデザインのための豊富な特徴を提供する。 タオバオのEコマース広告システムにDNAが配備されている。 
    論文  参考訳(メタデータ)   (Mon, 7 Jun 2021 13:20:40 GMT)
    • 広告のオークションにディープラーニングモデルを開発、適用したという報告。様々な指標を最適化するには従来の手法より優れているとのこと。

X-volution: Convolution + Self-attention

  • X-volution: On the unification of convolution and self-attention [52.8]
    本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。 提案したX-volutionは、非常に競争力のある視覚的理解の改善を実現する。
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 04:32:02 GMT)
    • 畳み込み + Self-attentionによって局所的および非局所的特徴相互作用を統一。ベースラインに対してimagenet分類における+1.2% top-1精度、+1.7 box ap、coco検出とセグメンテーションにおける+1.5 mask apを実現したとのこと。
    • 組み合わる系の成果。この手の話も増えていくのだろうと思う。

MERLOT: ビデオを用いた大規模事前学習

  • MERLOT: Multimodal Neural Script Knowledge Models [74.1]
    我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。 
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 17:57:39 GMT)
    • マルチモーダル事前学習モデル。ファインチューニングによって多くのタスクでsota。性能の向上幅も大きい。

会話型の質問回答タスクのサーベイ

  • Conversational Question Answering: A Survey [18.4]
    本調査は,会話質問回答(CQA)の最先端研究動向を包括的に概観する試みである。 この結果から,会話型AIの分野をさまざまな観点から活性化する1ターンから多ターンQAへの傾向が示唆された。
    論文  参考訳(メタデータ)   (Wed, 2 Jun 2021 01:06:34 GMT)
    • 会話関連の質問回答タスクのサーベイ。46ページと広範にわたるものであり、カテゴライズなども参考になる。

引用被引用関係(グラフ構造)を活用した情報抽出

  • CitationIE: Leveraging the Citation Graph for Scientific Information Extraction [89.3]
    科学的文書から重要な情報を自動抽出することは、科学者がより効率的に働き、科学的進歩のペースを加速するのに役立つ可能性がある。 引用論文と引用論文の参照リンクの引用グラフを使用する。 最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
    論文  参考訳(メタデータ)   (Thu, 3 Jun 2021 03:00:12 GMT)

テーブルデータをTransformerで扱う

  • SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training [45.1]
    タブラルデータは、機械学習の多くのハイインパクトな応用を支えている。 近年のディープラーニング手法は、一般的な技術と競合する性能を達成している。 提案手法であるSAINTは,行と列の双方に注意を向ける。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 2 Jun 2021 17:51:05 GMT)
    • テーブルデータに対してTransformerを用いるという論文。データセットによってはLightGBMやXGBoost、CatBoostといった勾配ブースティング系の手法よりも精度が高いとのこと。下記のTabTransformerもだが表形式データに対してもDeep Learning系のアプローチが有効な場合があるのは興味深い。Transformerが有用な構造なのか、データセットがフィットしているだけなのかは謎。
    • 同論文ではMLPが有効な場合があったり、XGB, LGBで差がありすぎのように思えるデータセットがあったりする(ハイパーパラメータの問題?)ので、最終的にはいろいろ試してみる事は必要なんだろうと思う。
  • TabTransformer: Tabular Data Modeling Using Contextual Embeddings [23.5]
    教師付きおよび半教師付き学習のための新しい深層データモデリングアーキテクチャであるTabTransformerを提案する。 トランスフォーマー層はカテゴリの特徴の埋め込みをロバストなコンテキスト埋め込みに変換し、高い予測精度を達成する。 半教師付き環境では、データ駆動型コンテキスト埋め込みを学習するための教師なし事前学習手法を開発し、その結果、最先端の手法を平均2.1%のAUCリフトする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 11 Dec 2020 23:31:23 GMT)

強化学習を系列データに対するモデリングとして扱う

  • Reinforcement Learning as One Big Sequence Modeling Problem [84.8]
    強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。 我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
    論文  参考訳(メタデータ)   (Thu, 3 Jun 2021 17:58:51 GMT)
    • 強化学習を系列データのモデリング問題として扱うという論文。前回のものと同じ発想。前とは別グループっぽいので有用なアプローチなのかもしれない。

強化学習のタスクをTransformerで

  • Decision Transformer: Reinforcement Learning via Sequence Modeling [102.9]
    本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。 その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
    論文  参考訳(メタデータ)   (Wed, 2 Jun 2021 17:53:39 GMT)
    • 強化学習のタスクを言語モデル風に解くという論文。性能が良く、強化学習の一部にTransformerを使うというアーキテクチャでもないのが驚き。MLPで良いのでは?という論文も出ているが、やはりTransformerは優れた構造なのかなと思う。