CLUES(Constrained Language Understanding Evaluation Standard): Few-shot Leafningのベンチマーク

  • CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.6]
    我々は,NLUモデルのFewショット学習能力を評価するためのベンチマークであるCLUESを紹介する。 近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 00:43:15 GMT)
    • 近年、Few-shot学習用のベンチマークが発表されているが、すべてのタスクに人間の評価値があるものは珍しい気がする。
    • リポジトリはhttps://github.com/microsoft/CLUES

RAFT(Realworld Annotated Few-shot Tasks): Few-shotなテキスト分類ベンチマーク

  • RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
    RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。 人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 22:35:31 GMT)
    • 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間(クラウドソーシング)のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。
      • ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
      • Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
      • NeurIPS impact statement risks (NIS): 論文が有害なアプリケーションに言及しているか
      • OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
      • Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
      • Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
      • Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
      • TAI safety research (TAI): 論文がtransformative artificial intelligenceの安全性研究に該当するか否か
      • Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
      • TweetEval Hate (TEH): ヘイトスピーチの検出タスク
      • Twitter complaints (TC): tweetに苦情を含むかを判別
    • プロジェクトサイトはhttps://raft.elicit.org/

FewNLU: Few-Shotな自然言語理解タスクの評価フレームワーク

  • FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding [89.9]
    本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。 評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
    論文  参考訳(メタデータ)   (Mon, 27 Sep 2021 00:57:30 GMT)
    • Few-shot性能を評価するためのフレームワークを提案。データ分割戦略、ハイパーパラメータの扱い(promptの扱い)など様々な側面で検討を行っている。
      • (k-fold CVよりMulti Splitの方が良いのはやや意外)
    • リポジトリはhttps://github.com/THUDM/FewNLU、プロジェクトサイトはhttps://fewnlu.github.io/でリーダーボードも存在。

DART(DifferentiAble pRompT ): 言語モデルを効率的に拡張するアプローチ

  • Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners [23.2]
    本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。 小さな言語モデルを、プロンプトエンジニアリングなしで、より優れたfew-shotの学習者に変換することができる。 標準NLPタスクの包括的な評価は、提案手法がより優れたFewショット性能を実現することを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Aug 2021 12:29:25 GMT)
    • 言語モデルに対してfine-tuningではなくfew-shotのアプローチを取り入れられるようにして良い性能を出したとの報告。(プロンプトの)テンプレートTokenとラベルToken相当のパラメータを連続空間で最適化することが特徴とのこと。入力側を連続空間で最適化して良いプロンプト(相当の入力)を探るアプローチ(と思われる)。「the pseudo tokens in the prompt template must be co-dependent with each other」とある通り単純にやってもうまくいかなさそうな気がするが、提案されているTraining Objectivesが良く機能しているよう。
    • GPT Understands, Too で提案されたP-tuningと似ているが、こちらは外部モデル(P-tuningの場合はLSTM)が不要。

FLEX(Few-shot Language Evaluation across (X) many transfer types) & FewCLUE(Few-shotなChinese Language Understanding Evaluation Benchmark) : NLPのFew-shotベンチマーク

両報告ともFew-shotに着目したベンチマーク。1つは中国語版であり(ERNIE 3.0でも明らかだが)中国で自然言語処理の研究が盛んなことがわかる。

JGLUE構築中とのことで日本の研究動向にも注目したい。

  • FLEX: Unifying Evaluation for Few-Shot NLP [17.4]
    我々はデシデラタを理想的な数ショットのNLPベンチマークとして定式化する。 最初のベンチマーク、公開リーダボード、フレームワークであるFLEXを紹介します。 また、Fewショット学習のためのシンプルだが強力なプロンプトベースモデルであるUniFewも紹介する。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 07:37:06 GMT)
  • FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [8.2]
    この研究は、中国初の総合的な少ないサンプルでの評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介する。 1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。 次に、最先端のFewショット学習手法を実装し、その性能をFewCLUEベンチマークの微調整およびゼロショット学習方式と比較する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 15 Jul 2021 17:51:25 GMT)

言語モデルを利用したマルチモーダルなFew Shotモデル

  • Multimodal Few-Shot Learning with Frozen Language Models [36.8]
    十分な規模でトレーニングを行うと、自動回帰言語モデルは、ほんの数例で促された後、新しい言語タスクを学習する顕著な能力を示す。 本稿では,このマイナショット学習能力をマルチモーダル環境(ビジョンと言語)に移すための,単純かつ効果的なアプローチを提案する。我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。 得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
    論文  参考訳(メタデータ)   (Fri, 25 Jun 2021 21:07:09 GMT)
    • 事前学習を行った言語モデルをマルチモーダル環境(画像とテキスト)に拡張する研究。言語モデルを構築しフリーズ。画像エンコーダをprompt作成用に構築。組み合わせるとマルチモーダルなFewShot可能なモデルとなるよう。
    • ほんとか?という感じで面白い結果。

自然言語処理タスクをEntailmentタスクへ変換して解く

  • Entailment as Few-Shot Learner [20.7]
    プリトレーニング済みの小さな言語モデルを、より優れた少人数学習者に変える新しいアプローチを提案します。 このアプローチの鍵となる考え方は、潜在的NLPタスクをentailmentタスクに再構成し、モデルを8つの例で微調整することである。 提案手法は, (i) 教師なしのコントラスト学習に基づくデータ拡張法と自然に組み合わされ, (ii) 多言語限定学習に容易に拡張できることを示す。 18 の標準 NLP タスクの体系的評価は,既存の SOTA 数ショット学習手法を 12 % 改善し,GPT-3 などの500 倍のモデルで競合的な数ショット性能が得られることを示す。
    論文  参考訳(メタデータ)   (Thu, 29 Apr 2021 22:52:26 GMT)
    • 自然言語関連の様々なタスクをうまく変換し、含意タスクとして解くという論文。汎用的なエンジンに近づいていく方向性のように思える。