GPT-3を用いた教師無しのニューラル機械翻訳

  • Unsupervised Neural Machine Translation with Generative Language Models Only [19.7]
    生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。 本手法は, few-shotの増幅, 蒸留, 逆翻訳の3段階からなる。
    論文  参考訳(メタデータ)   (Mon, 11 Oct 2021 17:35:34 GMT)
    • GPT-3を用いて情報を引き出しながら教師無しで機械翻訳モデルを構築するという論文。WMT14 English-FrenchでBLEU=42.1は相当高レベル。
    • GPT-3は英語への翻訳性能が高く、英語からの翻訳性能が低い。ディスカッションに書かれている通り、バックトランスレーションでこの非対称性が埋まっていくと考えると納得感のある結果。
    • 巨大モデルからうまく知識を引き出して高精度な機械翻訳モデルを作るというのは面白い。自然言語処理関連のモデル構築の常識が変わる気がする。今までは高品質対訳ペアデータを持っていることが競争優位性につながったが、これからは良いgigantic language modelを持つ事がそれにつながるのではないか。

M6-10T / Yuan 1.0 / Megatron-Turing NLG 530B 巨大な事前学習モデル

  • M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.2]
    極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。 本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略”Pseudo-to-Real”を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 8 Oct 2021 04:24:51 GMT)
    • 極めて巨大な言語モデルの学習方法を扱った論文。10日以内に512個のGPUだけで、非常に巨大な10Tパラメータのモデルを事前学習可能とのこと。
  • Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning [20.6]
    GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。 本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
    論文  参考訳(メタデータ)   (Sun, 10 Oct 2021 07:40:22 GMT)
    • 中国の245Bパラメータの巨大なモデル。5TBの高品質な中国語のデータで学習(4095 PetaFlops-days。。。)し様々なタスクで優れた性能を確認。
  • NVIDIAとMicrosoftが「Megatron-Turing NLG 530B」という530Bパラメータ(GPT-3の3倍)のモデルを発表している。(NVIDIAの記事Microsoftの記事)zero-shot、few-shotそれぞれで性能が改善しており巨大なモデル構築競争はしばらく続きそう。
    • 記事にある「We live in a time where AI advancements are far outpacing Moore’s law.」という記載が興味深い。

FLAN: 大規模テキストの正規化

  • A Fast Randomized Algorithm for Massive Text Normalization [26.6]
    大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。 本アルゴリズムは, 単語間のJaccard係数を利用して補正結果を提案する。 実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
    論文  参考訳(メタデータ)   (Wed, 6 Oct 2021 19:18:17 GMT)
    • 大規模なデータに対しても適用可能な正規化(ミススペルの修正など)手法の提案。機械学習を利用する手法ではなく単語(サブワード)間の Jaccard similarityに注目している。ノイズを加えたデータに対して既存手法より優れた性能を発揮するとのこと。
      • 有用な報告だと思うがFLAN(Finetuned LAnguage Net)と同じ略称でややこしい。こちらのFLANは何の略なんだろう?

QAにおけるGNNの役割はカウンターとして動作しているのみ?

  • GNN is a Counter? Revisiting GNN for Question Answering [105.8]
    State-of-the-art Question Answering (QA)システムは通常、LMに符号化された知識にアクセスするために、訓練済み言語モデル(LM)を使用する。 知識グラフ(KG)の推論を行うグラフニューラルネットワーク(GNN)に基づく精巧に設計されたモジュール 我々の研究は、既存の知識を意識したGNNモジュールがカウントなどの単純な理由のみを実行することを明らかにしている。
    論文  参考訳(メタデータ)   (Thu, 7 Oct 2021 05:44:52 GMT)
    • QAタスクの高精度化ではGraph Neural Networkが使われることが多い。Graph Soft Counter (GSC)というEdge encoderとスコアを合算レイヤーのみを持つシンプルな構造で既存の複雑なGNNより良い性能を達成できたとのこと。モデルサイズはわずか3Kと驚きの結果。

MobileViT: 軽量・効率的な画像用Transformer

  • MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer [24.5]
    モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。 以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 17:07:53 GMT)
    • パラメータ数が同等のMobileNetv3(CNN系)、DeIT(ViT系)を上回る性能を出せる軽量なVision Transformerの報告。結局、ViTs are slower than CNNsって・・・とは思わなくはないが、Transformerの利用は広まっているのでハードウェア演算による支援が普通になる未来を期待。
      • この論文はAppleからだしTransformer向けの計算支援をiPhoneに組み込んでほしい。(そしてFuguMTも高速化させたい)

HowSumm: クエリ指向マルチドキュメント要約データセット

  • HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow Articles [1.1]
    HowSummは、クエリ中心のマルチドキュメント要約(qMDS)タスクのための新しい大規模データセットである。 このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースとは異なる。 我々は,HowSumm を利用して要約研究を進めることを提案する。
    論文  参考訳(メタデータ)   (Thu, 7 Oct 2021 04:44:32 GMT)
    • wikiHowから作られたquery-focused multi-document summarization (qMDS)用のデータセット。wikiHowの記事中、(短い)ステップからのサマリーが84K (HowSumm-Step)、(長い)メソッドからのサマリーが11K (HowSumm-Method)と2種類データがある。データ量も大きく、この手のデータセットは非常に貴重。
      • ライセンスはCC BY-NC-SA 3.0で商用利用は禁止されている。
    • リポジトリはhttps://github.com/odelliab/HowSumm

ClimateGAN: GANを用いた洪水画像の作成

  • ClimateGAN: Raising Climate Change Awareness by Generating Images of Floods [89.6]
    実画像上でのリアルな洪水をシミュレートする手法を提案する。 本研究では、教師なし領域適応と条件付き画像生成のためのシミュレーションデータと実データの両方を活用するモデルであるClimateGANを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 6 Oct 2021 15:54:57 GMT)
    • GANを用いて災害時の画像を作ることで防災に役立てようという研究。データとして実世界の画像(被災画像を集めてから対応する平常時の画像を集める)、シミュレーション環境で作成した画像(Unity3D内で洪水相当の画像を作成)を併用している。やりたい事から構築までの流れが具体的・実践的でありがたい論文。

Anomaly Transformer: Transformerを用いた異常検知

  • Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy [68.9]
    異常の希少性のため, 系列全体と強い関連性を構築することは困難であり, 関連性は主に隣接点に集中していることが観察された。 通常の点と異常点の間に本質的に区別可能な基準を示しており、これはAssociation Discrepancy として強調する。関係の一致を計算するために,Anomaly-Attention機構を備えたAnomaly-Transformer を提案する。Anomaly Transformerは、6つの教師なし時系列異常検出ベンチマークで最先端のパフォーマンスを達成する
    論文  参考訳(メタデータ)   (Wed, 6 Oct 2021 10:33:55 GMT)
    • Transformerを用いて優れた性能の異常検知が可能との論文。概要の通り単純なTransforerではない。Ablation studyの分析が面白い。

BadPre: 事前学習モデルでのバックドア攻撃

  • BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation Models [25.9]
    我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックを提案する。 事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。 実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で攻撃できる可能性が示唆された。
    論文  参考訳(メタデータ)   (Wed, 6 Oct 2021 02:48:58 GMT)
    • 事前学習モデルを活用する形のNLPが流行しているが、その事前学習モデルにバックドアを仕込むことが可能という報告。下流タスクによらず特定ワードでの性能を著しく劣化されることが可能。
      • 論文中の図に出てくるBERTが恐ろしい。

自然言語処理におけるデータ拡張

  • Data Augmentation Approaches in Natural Language Processing: A Survey [28.9]
    データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。 DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。 DA手法をパラフレーズ化, ノイズ化, サンプリングなど, 拡張データの多様性に基づいて3つのカテゴリに分類する。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 07:35:32 GMT)
    • 自然言語処理におけるデータ拡張の幅広いサーベイ。言い換え、ノイズ付与、サンプリングの3カテゴリで整理を行っている。42ページ、引用論文数122と規模が大きい。論文中に出てくる図が非常に参考になる。