Charformer: サブワード化をモデル中に取り入れたTransformer

  • Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.2]
    モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデルを提案する。 文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。 また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
    論文  参考訳(メタデータ)   (Wed, 23 Jun 2021 22:24:14 GMT)
    • GBST( Gradient-Based Subword Tokenization module)を提案、Transformerに統合してsub word化を行わず優れた性能を出したという報告。スピードも速い。
    • 英語のタスクでは以前紹介したByT5と比べても優れており、マルチリンガルな設定では性能は同等で高速とのこと。後者で性能差が縮まるという結果も興味深い。

ViTの大規模検証

  • How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers [74.1]
    ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。 我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。 私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
    論文  参考訳(メタデータ)   (Fri, 18 Jun 2021 17:58:20 GMT)
    • 「We release more than 50’000 ViT models trained under diverse settings on various datasets.」と大規模なViTの検証。augmentationや regularizationの効果はデータセットの大きさによって変わる(状況によっては意味がない)など面白い結果。

Scaling Vision Transformers: 画像の大規模スケーリング

  • Scaling Vision Transformers [82.1]
    本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。 我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。 このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
    論文  参考訳(メタデータ)   (Tue, 8 Jun 2021 17:47:39 GMT)
    • 自然言語処理で効果的だった大規模化を画像で実施したもの。ImageNetでSOTAと効果があるよう。

テーブルデータをTransformerで扱う

  • SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training [45.1]
    タブラルデータは、機械学習の多くのハイインパクトな応用を支えている。 近年のディープラーニング手法は、一般的な技術と競合する性能を達成している。 提案手法であるSAINTは,行と列の双方に注意を向ける。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 2 Jun 2021 17:51:05 GMT)
    • テーブルデータに対してTransformerを用いるという論文。データセットによってはLightGBMやXGBoost、CatBoostといった勾配ブースティング系の手法よりも精度が高いとのこと。下記のTabTransformerもだが表形式データに対してもDeep Learning系のアプローチが有効な場合があるのは興味深い。Transformerが有用な構造なのか、データセットがフィットしているだけなのかは謎。
    • 同論文ではMLPが有効な場合があったり、XGB, LGBで差がありすぎのように思えるデータセットがあったりする(ハイパーパラメータの問題?)ので、最終的にはいろいろ試してみる事は必要なんだろうと思う。
  • TabTransformer: Tabular Data Modeling Using Contextual Embeddings [23.5]
    教師付きおよび半教師付き学習のための新しい深層データモデリングアーキテクチャであるTabTransformerを提案する。 トランスフォーマー層はカテゴリの特徴の埋め込みをロバストなコンテキスト埋め込みに変換し、高い予測精度を達成する。 半教師付き環境では、データ駆動型コンテキスト埋め込みを学習するための教師なし事前学習手法を開発し、その結果、最先端の手法を平均2.1%のAUCリフトする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 11 Dec 2020 23:31:23 GMT)

強化学習を系列データに対するモデリングとして扱う

  • Reinforcement Learning as One Big Sequence Modeling Problem [84.8]
    強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。 我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
    論文  参考訳(メタデータ)   (Thu, 3 Jun 2021 17:58:51 GMT)
    • 強化学習を系列データのモデリング問題として扱うという論文。前回のものと同じ発想。前とは別グループっぽいので有用なアプローチなのかもしれない。

強化学習のタスクをTransformerで

  • Decision Transformer: Reinforcement Learning via Sequence Modeling [102.9]
    本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。 その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
    論文  参考訳(メタデータ)   (Wed, 2 Jun 2021 17:53:39 GMT)
    • 強化学習のタスクを言語モデル風に解くという論文。性能が良く、強化学習の一部にTransformerを使うというアーキテクチャでもないのが驚き。MLPで良いのでは?という論文も出ているが、やはりTransformerは優れた構造なのかなと思う。

MLP? CNN? Transformer?

  • Can Attention Enable MLPs To Catch Up With CNNs? [33.7]
    多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、トランスフォーマーなど、学習アーキテクチャの簡単な歴史を提供する。 新たに提案された4つのアーキテクチャの共通点について検討し、今後の研究への刺激を期待する。
    論文  参考訳(メタデータ)   (Mon, 31 May 2021 16:08:46 GMT)
    • 最近のアーキテクチャを概説する論文。Long distance interactions, Local semantic information, Residual connections, Reduced inductive biasなど重要要素の取り扱いが記載されており、新しいアーキテクチャは従来のMLPではなく大きな進歩があると結論している。

ユーモア認識モデル

  • Laughing Heads: Can Transformers Detect What Makes a Sentence Funny? [18.7]
    我々は、最小組の文からなるデータセット上で、トランスフォーマーに基づくユーモア認識モデルを訓練し、分析する。 一致したデータセットは以前のデータセットよりもはるかに難しいが、トランスフォーマーベースのモデルは、高精度(78%)の一致したペアでユーモラスな文を認識する。 最も顕著なことは、訓練時にこの情報にアクセスしなくても、一つの注意頭がテスト文をユーモラスにする単語を認識することを学ぶという明確な証拠を見つけることである。
    論文  参考訳(メタデータ)   (Wed, 19 May 2021 14:02:25 GMT)
    • Transformerを用いたユーモアの認識。fine tuning後のモデルにユーモアを認識するためのヘッドができたという点が興味深い。
    • 下ネタ認識(わいせつ/非わいせつ)は得意だが、善悪・暴力/非暴力なユーモアの認識に苦労するのも小学生のようで面白い。

Self-attentionは重要でない?

  • Pay Attention to MLPs [84.5]
    gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。 我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。 一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
    論文  参考訳(メタデータ)   (Mon, 17 May 2021 17:55:04 GMT)
    • 「Are Pre-trained Convolutions Better than Pre-trained Transformers? (このBlogの記事)」と似たような話だが、一定規模・計算量があればTransformerだからという優位性はないのかも。

Transformer vs CNN

  • Are Pre-trained Convolutions Better than Pre-trained Transformers? [42.3]
    CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。 本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
    論文  参考訳(メタデータ)   (Fri, 7 May 2021 15:13:30 GMT)
    • 事前学習を用いた学習でCNNの方がTransformerより優れていることがあるとの報告。Transformer一択という今の雰囲気に一石を投じる内容。