Primer(PRIMitives searched transformER): 言語モデルのための効率的なアーキテクチャ

  • Primer: Searching for Efficient Transformers for Language Modeling [79.3]
    大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。 ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。 私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
    論文  参考訳(メタデータ)   (Fri, 17 Sep 2021 17:50:39 GMT)
    • Transformerの構造に手を入れ効率の高いアーキテクチャを進化的な手法で探索。500MパラメータのT5相当の実装で4.2倍の学習コスト削減を達成するPrimerというアーキテクチャを見つけたとの報告。主要な変更点は「Squared ReLU」と「MDHA: Multi-DConv-Head Attention (深さ方向のconvolution layerをQ, K, V projectionの後に配置)」。Primerはこの2点以外にも様々な修正が加えられているが、この変更のみを行ったバージョン(Primer-EZ)でも高い効果があるとのこと。著者はまずPrimer-EZで高速化効果を試し必要に応じて完全なPrimerを導入することを推奨している。
    • リポジトリはhttps://github.com/google-research/google-research/tree/master/primer

Deep Learning モデルの説明にはインタラクティブ性が必要

  • Explainability Requires Interactivity [13.4]
    現代視覚モデルの高度に複雑な決定境界を理解するためのインタラクティブなフレームワークを導入する。 ユーザーはネットワークの決定を徹底的に検査し、調査し、テストすることができる。
    論文  参考訳(メタデータ)   (Thu, 16 Sep 2021 11:02:25 GMT)
    • 複雑なモデルに対して一見単純な「説明」を出すことは危険であり、インタラクティブなやり取りが必要であるとの論文。画像に対して重要個所のヒートマップを出すのではなく、入力画像をスタイル変換していくつかの画像を生成、その予測値を例示して判断を即すアプローチ。笑顔推定であれば「入力画像とほぼ同じだが肌や髪の色が異なる画像」のスコアが著しく低くなっていれば怪しいと感じることができる。
    • ヒートマップによる「説明」はそれっぽいが誤解しやすいのは確か。Talk-to-Editと組み合わせると面白いだろうなーと思う。

翻訳した要約データは使えるか?

  • Does Summary Evaluation Survive Translation to Other Languages? [0.0]
    既存の英語要約データセット SummEval を4言語に翻訳する。 本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
    論文  参考訳(メタデータ)   (Thu, 16 Sep 2021 17:35:01 GMT)
    • SummEvalをHelsinki-NLPで翻訳したデータを評価、各種メトリクスは変動するものの順位が変動するほどのものではなく、英語のアノテーションを機械翻訳したデータでも使えるのでは?という結論。

CodeQA: プログラムコードに対するQuestion Answering

  • CodeQA: A Question Answering Dataset for Source Code Comprehension [82.6]
    コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。 CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
    論文  参考訳(メタデータ)   (Fri, 17 Sep 2021 06:06:38 GMT)
    • ソースコードに対するQuestion Answeringを行うためのデータセット。コメント文などから生成しているそうだが、他にあまり見ない問題設定のよう思う。
    • リポジトリはhttps://github.com/jadecxliu/CodeQA

BiT(Bidirectional Training): 機械翻訳用のシンプルな双方向事前学習

  • Improving Neural Machine Translation by Bidirectional Training [85.6]
    我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。 具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。 実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 16 Sep 2021 07:58:33 GMT)
    • 「src→target」という構成を「src + target → target + src」に変更して事前学習を行う(BiT)だけで翻訳性能が向上するとの報告。事前学習結果は言語対が逆になっても(例えばEn→De、De→En双方で)使用可能とのこと。データ数に関わらずBLEUで1ポイント以上の効果があるデータセットもあって有用そう。

ニューラル機械翻訳におけるScaling Law、クロスエントロピーと翻訳の質

  • Scaling Laws for Neural Machine Translation [21.8]
    モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。 また,クロスエントロピー損失と翻訳の質との関係についても検討した。
    論文  参考訳(メタデータ)   (Thu, 16 Sep 2021 06:15:20 GMT)
    • ニューラル機械翻訳におけるモデルサイズとモデル品質の関係を検証した論文。エンコーダとデコーダに着目した場合はそれなりにうまくいく式が導出できたとのこと(逆に言うとモデル内パラメータ総数との関係は十分に明らかとは言えない)。それによって最適なサイズを決められる。
      • デコーダの層数よりもエンコーダの層数を多くした方が良いのでは?という議論が裏付けられている。
    • Target言語→Src言語でテストセットを作った場合はモデルサイズの増加がlossとBLEU双方が改善され、逆の場合はlossが改善する一方でBLEUの改善は頭打ちになる。
      • 機械翻訳の多様性の欠如を示しているのでは。とのこと。(同時にBack Translationが一定程度有効という裏付けでもある。)
    • WEBからのクロールデータで機械翻訳モデルを作る際、WEBデータに機械翻訳によるテキストが多数入っている事の問題も指摘している。特にリソースの少ない言語ではすでに問題になっているとの指摘。
      • FuguMTではある程度はフィルタリングしている。テキストの類似性を見るようなアプローチは効果が薄く、URLや原文の構成単語に頼る方がよかったりするので簡単ではないとの印象。
      • 機械翻訳を行っているサイトにつけるフラグとかあったら知りたい。

RobustART: 画像処理理の頑健性に関するベンチマーク/API

  • RobustART: Benchmarking Robustness on Architecture Design and Training Techniques [170.3]
    ディープニューラルネットワーク(DNN)は敵の雑音に弱い。 アーキテクチャ設計とトレーニングのテクニックが堅牢性にどのように影響するかに関する包括的な研究はない。 本稿では,ImageNet上での包括性調査ベンチマークを提案する。
    論文  参考訳(メタデータ)   (Wed, 15 Sep 2021 08:15:57 GMT)
    • ImageNetをベースにした頑健性に関するベンチマーク/APIの提案。成果自体も有用だと思うが、最新のものを含む既存アーキテクチャやテクニックを幅広く分析しており非常に参考になる内容。
    • 広範な分析を行った結果「①TransformerとMLP-MixerではAdversarial Trainingで扱っているノイズ(natural, system, adversarial noise)に対する頑健性、精度が向上する。」「②同程度のサイズであればnatural noiseとsystem noiseに対してはCNN > Transformer > MLP-Mixerの順で頑健、adversarial noiseに対してはTransformer > MLP-Mixer > CNNの順に頑健」「③ほぼすべてのモデルについてモデルサイズの増加でよりロバストになる。ただし、軽量化を狙ったアーキテクチャ(EfficientNetやMobileNetV2/V3)の一部はロバスト性が向上しない」がわかったとのこと。
      • CNNとTransformerの比較結果は局所的な特徴量に強いCNNと大域を見れるTransformerの差異によるものだろうか。モデルサイズが大きくなるとよりロバストになるというのは過去にも指摘されていたが、軽量モデルではそれが当てはまらないというのも中身を詳細に分析したくなる。大規模の比較なのでほかにもモデル間の差異がありそうで面白い。
    • プロジェクトサイトはhttp://robust.art/

MDAPT(Multilingual Domain Adaptive PreTraining): 多言語ドメイン固有モデルの有効性

  • MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.6]
    一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。 本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 14 Sep 2021 11:50:26 GMT)
    • 金融やバイオなどあるドメイン固有の処理を行う多言語モデルを構築する場合、多言語ドメイン固有な事前学習(アダプト)を行うことが有効とした論文。様々なパターンで性能比較が行われており参考になる。(各言語のモデルを構築せずとも)固有ドメイン・多言語の統一モデルに意義があるとされているのが興味深い。
    • リポジトリはhttps://github.com/RasmusKaer/mDAPT_supplementshttps://github.com/mahartmann/mdapt

STraTA(Self-Training with Task Augmentation): タスク拡張による自己学習

  • STraTA: Self-Training with Task Augmentation for Better Few-shot Learning [77.0]
    タスク拡張による自己学習のためのSTraTAを提案する。 実験の結果,STraTAは12個のベンチマークでサンプル効率を大幅に向上できることがわかった。 分析の結果,タスク強化と自己学習は相補的かつ独立的に有効であることが判明した。
    論文  参考訳(メタデータ)   (Mon, 13 Sep 2021 19:14:01 GMT)
    • まずはNatural Language Inference モデルを構築し大量の合成データを作成(Task augmentation)、ラベル付きデータと疑似的なラベル付きデータを用いて反復的にモデルを構築・改善する(Self-Training)方針。各イテレーションはTask Augmentaionによる補助モデルから始め、広い分布の疑似ラベルデータを使用するとのこと。
      • Task augmentaionのベースはT5-3Bとのこと。
    • SST-2で「ラベル付きデータがクラスごとに8つのSTraTA」が67Kサンプルのfine tuningに匹敵とのことで素晴らしい効果。Few-shotの設定(前述のクラスごとに8サンプル)だとprompt-baseなアプローチやEntailmentタスクに持ち込むアプローチに対しても勝率が高い。
    • リポジトリはhttps://github.com/google-research/google-research/tree/master/strata(現状はまだ404)

言語モデルのデトックス

  • Challenges in Detoxifying Language Models [44.5]
    大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。 安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。 我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
    論文  参考訳(メタデータ)   (Wed, 15 Sep 2021 17:27:06 GMT)
    • 大規模言語モデルから攻撃的なテキストなど問題のある部分を除く無毒化の研究報告。毒性スコアを効果的に減少させる手法は存在するが、そもそも何を問題のあるテキストとみなすか?という問いが未解決であるとの指摘は重い。また、毒性スコアを下げる対応によって社会的バイアスの増加(疎外されているグループに対する精度劣化)が起きる可能性があることは注意すべき事項であると思う。