小さなシードデータを用いたデータ構築

  • Few-shot Mining of Naturally Occurring Inputs and Outputs [83.4]
    我々は,100個の小さなSeedセットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。 モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。 SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 9 May 2022 05:40:52 GMT)
    • 最初に小規模データを準備、その知識を用いて大規模コーパスから学習データを構築しようという報告。XSumとSQuADで有効性を確認とのこと。

DataCLUE: Data-Centric AIのベンチマーク