ImaginE: 想像力を持った評価指標

  • ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation [53.6]
    我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。 いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 17:59:52 GMT)
    • 文章生成タスクの評価指標としてマルチモーダル性を利用しようという研究。BERTScoreの発展形のようなもの。テキストから想像される画像を使っての評価が人の評価に近い場合があるというのは興味深い(BERT Scoreで良さそうだが・・・)。発想&論文中に出てくる画像は非常に面白い。

MusicBERT: 音楽を対象とした事前学習モデル

  • MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.9]
    シンボリック・ミュージックの理解とは、シンボリック・データから音楽を理解することを指す。 MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 10:13:05 GMT)
    • BERTを音楽を対象に利用、音楽理解タスクでSOTA。マスキング戦略など音楽特有の対応を行っている。

Scaling Vision Transformers: 画像の大規模スケーリング

  • Scaling Vision Transformers [82.1]
    本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。 我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。 このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
    論文  参考訳(メタデータ)   (Tue, 8 Jun 2021 17:47:39 GMT)
    • 自然言語処理で効果的だった大規模化を画像で実施したもの。ImageNetでSOTAと効果があるよう。

MERLOT: ビデオを用いた大規模事前学習

  • MERLOT: Multimodal Neural Script Knowledge Models [74.1]
    我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。 
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 17:57:39 GMT)
    • マルチモーダル事前学習モデル。ファインチューニングによって多くのタスクでsota。性能の向上幅も大きい。

バイト列(トークン化なし)でのT5

  • ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.5]
    最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。 標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。 また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
    論文  参考訳(メタデータ)   (Fri, 28 May 2021 07:03:22 GMT)

Transformer vs CNN

  • Are Pre-trained Convolutions Better than Pre-trained Transformers? [42.3]
    CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。 本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
    論文  参考訳(メタデータ)   (Fri, 7 May 2021 15:13:30 GMT)
    • 事前学習を用いた学習でCNNの方がTransformerより優れていることがあるとの報告。Transformer一択という今の雰囲気に一石を投じる内容。

大規模モデルPanGu

  • PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation [58.3]
    PanGu-$alpha$という,最大2000億パラメータの大規模オートレグレッシブ言語モデルをトレーニングするプラクティスを紹介します。 PanGu-$alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。
    論文  参考訳(メタデータ)   (Mon, 26 Apr 2021 06:59:36 GMT)
    • 中国の大規模モデル、様々な工夫によって得られた1.1TBのデータを使用。ベンチマークでも好成績とのこと。
    • ハードウェアも内製?

機械学習と二酸化炭素

  • Carbon Emissions and Large Neural Network Training [19.2]
    我々は最近の大型モデルT5, Meena, GShard, Switch Transformer, GPT-3のエネルギー使用量と炭素フットプリントを算出する。 エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調します。 MLの炭素フットプリントを減らすために、エネルギー使用量とCO2eはモデルを評価する上で重要な指標であるべきだと考えています。
    論文  参考訳(メタデータ)   (Thu, 22 Apr 2021 17:57:23 GMT)
    • 大規模モデル構築時の二酸化炭素排出量等を扱った論文。重要な視点であるとともに著者のGoogleで議論のあった話題でもある。

Video生成

  • VideoGPT: Video Generation using VQ-VAE and Transformers [75.2]
    VideoGPTは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。 VideoGPTはVQ-VAEを使用し3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。 我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
    論文  参考訳(メタデータ)  参考訳(全文) (Tue, 20 Apr 2021 17:58:03 GMT)
    • 映像データの自動生成、GANに迫る結果が出せたとのこと。
    • https://wilson1yan.github.io/videogpt/index.html のデモが面白い。

大規模QAデータセット、大規模ビデオデータセット

  • GooAQ: Open Question Answering with Diverse Answer Types [63.1]
    さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。 このデータセットには500万の質問と300万の回答が含まれている。
    論文  参考訳(メタデータ)   (Sun, 18 Apr 2021 05:40:39 GMT)
    • Googleから抽出されたQAデータセット。規約的にこのようなことをやってよいのか疑問ではあるが、貴重なデータであることは確か。
    • https://github.com/allenai/gooaq
  • Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9]
    VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 19 Apr 2021 15:58:45 GMT)
    • 中国語の大規模ビデオ+言語データセット
    • 中国語のデータセット構築も非常に盛んな印象がある。