コンテンツへスキップ
- Few-shot Mining of Naturally Occurring Inputs and Outputs [83.4]
我々は,100個の小さなSeedセットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。 モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。 SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 9 May 2022 05:40:52 GMT)- 最初に小規模データを準備、その知識を用いて大規模コーパスから学習データを構築しようという報告。XSumとSQuADで有効性を確認とのこと。
- DataCLUE: A Benchmark Suite for Data-centric NLP [11.0]
データ中心のAIは、モデルパフォーマンスを改善するためにデータセットの品質を改善することを強調する。 NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。 我々は,人間のアノテーションを用いた総合的な実験を行い,DataCLUEの難しさを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 17 Nov 2021 16:24:55 GMT) - ニューラル機械翻訳モデルと対訳データの品質 | ぷるーふおぶこんせぷと (staka.jp) でも記載した通り、ニューラル機械翻訳モデル構築においては対訳データの品質が非常に重要。FuguMTのデータを用いてデータ中心(データの品質向上技術を競う)ベンチマークを作りたいなと思わなくもない。