大規模事前学習 – ページ 12 – arXiv最新論文の紹介

大規模モデルPanGu

PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation [58.3]
PanGu-$alpha$という,最大2000億パラメータの大規模オートレグレッシブ言語モデルをトレーニングするプラクティスを紹介します。 PanGu-$alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。
論文参考訳（メタデータ） (Mon, 26 Apr 2021 06:59:36 GMT)
- 中国の大規模モデル、様々な工夫によって得られた1.1TBのデータを使用。ベンチマークでも好成績とのこと。
- ハードウェアも内製？

機械学習と二酸化炭素

Carbon Emissions and Large Neural Network Training [19.2]
我々は最近の大型モデルT5, Meena, GShard, Switch Transformer, GPT-3のエネルギー使用量と炭素フットプリントを算出する。エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調します。 MLの炭素フットプリントを減らすために、エネルギー使用量とCO2eはモデルを評価する上で重要な指標であるべきだと考えています。
論文参考訳（メタデータ） (Thu, 22 Apr 2021 17:57:23 GMT)
- 大規模モデル構築時の二酸化炭素排出量等を扱った論文。重要な視点であるとともに著者のGoogleで議論のあった話題でもある。

Video生成

VideoGPT: Video Generation using VQ-VAE and Transformers [75.2]
VideoGPTは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。 VideoGPTはVQ-VAEを使用し3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
論文参考訳（メタデータ）参考訳（全文） (Tue, 20 Apr 2021 17:58:03 GMT)
- 映像データの自動生成、GANに迫る結果が出せたとのこと。
- https://wilson1yan.github.io/videogpt/index.html のデモが面白い。

大規模QAデータセット、大規模ビデオデータセット

GooAQ: Open Question Answering with Diverse Answer Types [63.1]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。このデータセットには500万の質問と300万の回答が含まれている。
論文参考訳（メタデータ） (Sun, 18 Apr 2021 05:40:39 GMT)
- Googleから抽出されたQAデータセット。規約的にこのようなことをやってよいのか疑問ではあるが、貴重なデータであることは確か。
- https://github.com/allenai/gooaq

Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文参考訳（メタデータ）参考訳（全文） (Mon, 19 Apr 2021 15:58:45 GMT)
- 中国語の大規模ビデオ＋言語データセット
- 中国語のデータセット構築も非常に盛んな印象がある。

マルチリンガルな大規模事前学習モデル、低コストなBERT

ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation [80.2]
ProphetNetは、事前トレーニングベースの自然言語生成方法です。 ProphetNetを他のドメインや言語に拡張し、ProphetNetファミリープレトレーニングモデルであるProphetNet-Xを提示する。実験では,ProphetNet-Xモデルが10ベンチマークで新しい最先端性能を実現する。
論文参考訳（メタデータ） (Fri, 16 Apr 2021 10:00:43 GMT)
- ProphetNet 系のマルチリンガルモデル。ベンチマーク結果からはかなり強力と思われる。

How to Train BERT with an Academic Budget [19.2]
大規模な言語モデルBERT は、NLP で普遍的に使用されていますが、事前トレーニングは、少数のよく資金提供された業界ラボでしか利用できない高級品とみなされます。低レンジの12GBGPUを8台のみ使用しマスク付き言語モデルを24時間でプリトレーニングするレシピを提案する。
論文参考訳（メタデータ） (Thu, 15 Apr 2021 18:17:12 GMT)
- Nvidia Titan-V GPU×8でのBERTトレーニングも低コストではないもののかなり現実的。ただ、低コスト性という意味ではColabでと思わなくはない。