PERFECT: Prompt-free and Efficient paRadigm for FEw-shot Cloze-based fine-Tuning

  • PERFECT: Prompt-free and Efficient Few-shot Learning with Language Models [67.4]
    PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。 そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。 幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 3 Apr 2022 22:31:25 GMT)
    • 手作業のプロンプト作成を排除するため、タスクを表すAdaptor層をチューニング可能なアーキテクチャ。手作業無しで優れた性能を達成とのこと。
    • リポジトリはGitHub – rabeehk/perfect

言語モデルは説明文から学べるか?

  • Can language models learn from explanations in context? [21.7]
    大規模言語モデルは、いくつかのコンテキスト内例に適応することで、新しいタスクを実行することができる。 人間にとって、例からの素早い学習は、例とタスク原則を結びつける説明の恩恵を受けることができる。 少数例の説明によって言語モデルがより効果的に適応できるかどうかを考察する。
    論文  参考訳(メタデータ)   (Tue, 5 Apr 2022 16:33:44 GMT)
    • few-shot設定で例示される内容に説明を付与すると性能を向上可能という論文。大規模モデルにおいて効果的とのこと。近年の大規模モデルが例と説明の何らかの対応付けができる規模になっているのだとすると面白い。

UniPrompt: 多言語統一的なプロンプトモデル

  • Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified Multilingual Prompt [98.3]
    我々はUniPromptと呼ばれるすべての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。 統一的なプロンプトは多言語 PLM による計算であり、言語に依存しない表現を生成する。 提案手法は、異なる言語間で強いベースラインを著しく上回ることができる。
    論文  参考訳(メタデータ)   (Wed, 23 Feb 2022 11:57:52 GMT)
    • template towerとcontext towerを分けmultilingual PLMの下層レイヤーで初期化、それを融合するtowerは同上層レイヤーで初期化、label wordを言語に依存しない形で初期化するアプローチとのこと。
      • なぜこれでうまくいくのか納得しかねるが、結果は有望に見える。
    • コード、データともに公開予定の事だが、現状ではリンクが見つからなかった。

GEEP(GEnder Equality Prompt): 事前学習モデルのジェンダーバイアスを軽減する手法

  • Improving Gender Fairness of Pre-Trained Language Models without Catastrophic Forgetting [51.3]
    本稿では,GEnder Equality Prompt (GEEP) という新しい手法を提案する。 GEEPは、凍結言語モデルに基づく性別バイアスを減らすための性別関連プロンプトを学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Oct 2021 15:52:16 GMT)
    • 事前学習モデルにおける職業を表す単語にはジェンダーバイアスがあること、例えば外科医は男性の職業とみなされることがある。この論文では「性中立データセット」を作成後に再学習するのではなく、元の事前学習モデルを凍結、学習可能パラメータ(職業を表すtoken embedding部分)を追加したうえでその部分だけを再学習することで性能劣化を避けながらジェンダーバイアスを軽減可能と報告している。

DART(DifferentiAble pRompT ): 言語モデルを効率的に拡張するアプローチ

  • Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners [23.2]
    本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。 小さな言語モデルを、プロンプトエンジニアリングなしで、より優れたfew-shotの学習者に変換することができる。 標準NLPタスクの包括的な評価は、提案手法がより優れたFewショット性能を実現することを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Aug 2021 12:29:25 GMT)
    • 言語モデルに対してfine-tuningではなくfew-shotのアプローチを取り入れられるようにして良い性能を出したとの報告。(プロンプトの)テンプレートTokenとラベルToken相当のパラメータを連続空間で最適化することが特徴とのこと。入力側を連続空間で最適化して良いプロンプト(相当の入力)を探るアプローチ(と思われる)。「the pseudo tokens in the prompt template must be co-dependent with each other」とある通り単純にやってもうまくいかなさそうな気がするが、提案されているTraining Objectivesが良く機能しているよう。
    • GPT Understands, Too で提案されたP-tuningと似ているが、こちらは外部モデル(P-tuningの場合はLSTM)が不要。