2021年10月13日 – arXiv最新論文の紹介

GPT-3を用いた教師無しのニューラル機械翻訳

Unsupervised Neural Machine Translation with Generative Language Models Only [19.7]
生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。本手法は, few-shotの増幅, 蒸留, 逆翻訳の3段階からなる。
論文参考訳（メタデータ） (Mon, 11 Oct 2021 17:35:34 GMT)
- GPT-3を用いて情報を引き出しながら教師無しで機械翻訳モデルを構築するという論文。WMT14 English-FrenchでBLEU=42.1は相当高レベル。
- GPT-3は英語への翻訳性能が高く、英語からの翻訳性能が低い。ディスカッションに書かれている通り、バックトランスレーションでこの非対称性が埋まっていくと考えると納得感のある結果。
- 巨大モデルからうまく知識を引き出して高精度な機械翻訳モデルを作るというのは面白い。自然言語処理関連のモデル構築の常識が変わる気がする。今までは高品質対訳ペアデータを持っていることが競争優位性につながったが、これからは良いgigantic language modelを持つ事がそれにつながるのではないか。

M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.2]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略”Pseudo-to-Real”を提案する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 8 Oct 2021 04:24:51 GMT)
- 極めて巨大な言語モデルの学習方法を扱った論文。10日以内に512個のGPUだけで、非常に巨大な10Tパラメータのモデルを事前学習可能とのこと。

Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning [20.6]
GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
論文参考訳（メタデータ） (Sun, 10 Oct 2021 07:40:22 GMT)
- 中国の245Bパラメータの巨大なモデル。5TBの高品質な中国語のデータで学習（4095 PetaFlops-days。。。）し様々なタスクで優れた性能を確認。

NVIDIAとMicrosoftが「Megatron-Turing NLG 530B」という530Bパラメータ（GPT-3の3倍）のモデルを発表している。（NVIDIAの記事、Microsoftの記事）zero-shot、few-shotそれぞれで性能が改善しており巨大なモデル構築競争はしばらく続きそう。
- 記事にある「We live in a time where AI advancements are far outpacing Moore’s law.」という記載が興味深い。

A Fast Randomized Algorithm for Massive Text Normalization [26.6]
大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。本アルゴリズムは, 単語間のJaccard係数を利用して補正結果を提案する。実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
論文参考訳（メタデータ） (Wed, 6 Oct 2021 19:18:17 GMT)
- 大規模なデータに対しても適用可能な正規化（ミススペルの修正など）手法の提案。機械学習を利用する手法ではなく単語（サブワード）間の Jaccard similarityに注目している。ノイズを加えたデータに対して既存手法より優れた性能を発揮するとのこと。
  - 有用な報告だと思うがFLAN(Finetuned LAnguage Net)と同じ略称でややこしい。こちらのFLANは何の略なんだろう？