- Generating Training Data with Language Models: Towards Zero-Shot Language Understanding [35.9]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。 NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。 提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
論文 参考訳(メタデータ) (Wed, 9 Feb 2022 16:02:18 GMT)- GPT系のPLMをデータ生成に用い、双方向なBERT系PLMをfine tuningすることで優れた性能(Few(32)-shotを上回る性能)を達成とのこと。データ生成時の確率を使用したフィルタリング、ラベルスムージング・アンサンブル等が高精度な結果に寄与しているとのこと。
- アプローチとしてはGPT-3を用いた教師無しのニューラル機械翻訳 – arXiv最新論文の紹介 (devneko.jp)に近いが、生成モデルの情報をより活用している印象
- リポジトリはGitHub – yumeng5/SuperGen: Generating Training Data with Language Models: Towards Zero-Shot Language Understanding
- GPT系のPLMをデータ生成に用い、双方向なBERT系PLMをfine tuningすることで優れた性能(Few(32)-shotを上回る性能)を達成とのこと。データ生成時の確率を使用したフィルタリング、ラベルスムージング・アンサンブル等が高精度な結果に寄与しているとのこと。