Lexiconを用いた事前学習モデルの拡張

NoisyTune: PLMのfinetuneをよくするノイズ付与

  • NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better [98.6]
    訓練済み言語モデル(PLM)の微調整は、下流タスクの成功に不可欠である。 PLMは、事前訓練の信号に過度に適合する危険性があり、下流のタスクと事前訓練のタスクの間にはギャップがある。 NoisyTuneは、微調整前にPLMのパラメータにいくつかのノイズを加えることで、下流タスクにおけるPLMの微調整を支援する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 24 Feb 2022 11:08:02 GMT)
    • 事前学習モデルのパラメータにノイズを加えるだけというシンプルな手法でfine tuning後の性能を向上させるという報告。ほんまかいなと思いつつ、一貫して性能が上がっているのが凄い。

DART(DifferentiAble pRompT ): 言語モデルを効率的に拡張するアプローチ

  • Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners [23.2]
    本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。 小さな言語モデルを、プロンプトエンジニアリングなしで、より優れたfew-shotの学習者に変換することができる。 標準NLPタスクの包括的な評価は、提案手法がより優れたFewショット性能を実現することを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Aug 2021 12:29:25 GMT)
    • 言語モデルに対してfine-tuningではなくfew-shotのアプローチを取り入れられるようにして良い性能を出したとの報告。(プロンプトの)テンプレートTokenとラベルToken相当のパラメータを連続空間で最適化することが特徴とのこと。入力側を連続空間で最適化して良いプロンプト(相当の入力)を探るアプローチ(と思われる)。「the pseudo tokens in the prompt template must be co-dependent with each other」とある通り単純にやってもうまくいかなさそうな気がするが、提案されているTraining Objectivesが良く機能しているよう。
    • GPT Understands, Too で提案されたP-tuningと似ているが、こちらは外部モデル(P-tuningの場合はLSTM)が不要。