DART(DifferentiAble pRompT ): 言語モデルを効率的に拡張するアプローチ

Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners [23.2]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。小さな言語モデルを、プロンプトエンジニアリングなしで、より優れたfew-shotの学習者に変換することができる。標準NLPタスクの包括的な評価は、提案手法がより優れたFewショット性能を実現することを示す。
論文参考訳（メタデータ） (Mon, 30 Aug 2021 12:29:25 GMT)
- 言語モデルに対してfine-tuningではなくfew-shotのアプローチを取り入れられるようにして良い性能を出したとの報告。（プロンプトの）テンプレートTokenとラベルToken相当のパラメータを連続空間で最適化することが特徴とのこと。入力側を連続空間で最適化して良いプロンプト（相当の入力）を探るアプローチ（と思われる）。「the pseudo tokens in the prompt template must be co-dependent with each other」とある通り単純にやってもうまくいかなさそうな気がするが、提案されているTraining Objectivesが良く機能しているよう。
- GPT Understands, Too で提案されたP-tuningと似ているが、こちらは外部モデル（P-tuningの場合はLSTM）が不要。

コメントを残す

コメントを残す コメントをキャンセル