MDAPT(Multilingual Domain Adaptive PreTraining): 多言語ドメイン固有モデルの有効性

  • MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.6]
    一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。 本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 14 Sep 2021 11:50:26 GMT)
    • 金融やバイオなどあるドメイン固有の処理を行う多言語モデルを構築する場合、多言語ドメイン固有な事前学習(アダプト)を行うことが有効とした論文。様々なパターンで性能比較が行われており参考になる。(各言語のモデルを構築せずとも)固有ドメイン・多言語の統一モデルに意義があるとされているのが興味深い。
    • リポジトリはhttps://github.com/RasmusKaer/mDAPT_supplementshttps://github.com/mahartmann/mdapt

STraTA(Self-Training with Task Augmentation): タスク拡張による自己学習

  • STraTA: Self-Training with Task Augmentation for Better Few-shot Learning [77.0]
    タスク拡張による自己学習のためのSTraTAを提案する。 実験の結果,STraTAは12個のベンチマークでサンプル効率を大幅に向上できることがわかった。 分析の結果,タスク強化と自己学習は相補的かつ独立的に有効であることが判明した。
    論文  参考訳(メタデータ)   (Mon, 13 Sep 2021 19:14:01 GMT)
    • まずはNatural Language Inference モデルを構築し大量の合成データを作成(Task augmentation)、ラベル付きデータと疑似的なラベル付きデータを用いて反復的にモデルを構築・改善する(Self-Training)方針。各イテレーションはTask Augmentaionによる補助モデルから始め、広い分布の疑似ラベルデータを使用するとのこと。
      • Task augmentaionのベースはT5-3Bとのこと。
    • SST-2で「ラベル付きデータがクラスごとに8つのSTraTA」が67Kサンプルのfine tuningに匹敵とのことで素晴らしい効果。Few-shotの設定(前述のクラスごとに8サンプル)だとprompt-baseなアプローチやEntailmentタスクに持ち込むアプローチに対しても勝率が高い。
    • リポジトリはhttps://github.com/google-research/google-research/tree/master/strata(現状はまだ404)

言語モデルのデトックス

  • Challenges in Detoxifying Language Models [44.5]
    大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。 安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。 我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
    論文  参考訳(メタデータ)   (Wed, 15 Sep 2021 17:27:06 GMT)
    • 大規模言語モデルから攻撃的なテキストなど問題のある部分を除く無毒化の研究報告。毒性スコアを効果的に減少させる手法は存在するが、そもそも何を問題のあるテキストとみなすか?という問いが未解決であるとの指摘は重い。また、毒性スコアを下げる対応によって社会的バイアスの増加(疎外されているグループに対する精度劣化)が起きる可能性があることは注意すべき事項であると思う。