BigBIO

  • BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing [13.3]
    バイオメディカルNLPデータセット126以上のコミュニティライブラリであるBigBIOを紹介する。 BigBIOは、データセットとそのメタデータへのプログラムアクセスを通じて、再現可能なメタデータキュレーションを容易にする。 本稿では,タスクスキーマ,データ監査,コントリビューションガイドライン,および2つの実証的ユースケースの概要について論じる。
    論文  参考訳(メタデータ)   (Thu, 30 Jun 2022 07:15:45 GMT)
    • バイオ・医療分野のデータセット。126のデータセットがありタスクカテゴリは以下の12とのこと。
      • Knowledge Base (KB)
        • Named entity recognition (NER)
        • Named entity disambiguation/normalization/linking (NED)
        • Event extraction (EE)
        • Relation extraction (RE)
        • Coreference resolution (COREF)
      • Question Answering (QA)
        • Question answering (QA)
      • Textual Entailment (TE)
        • Textual entailment (TE)
      • Text Pairs (PAIRS)
        • Semantic Similarity (STS)
      • Text to Text (T2T)
        • Paraphasing (PARA)
        • Translation (TRANSL)
        • Summarization (SUM)
      • Text (TEXT)
        • Text classification (TXTCLASS)

小さなシードデータを用いたデータ構築

  • Few-shot Mining of Naturally Occurring Inputs and Outputs [83.4]
    我々は,100個の小さなSeedセットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。 モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。 SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 9 May 2022 05:40:52 GMT)
    • 最初に小規模データを準備、その知識を用いて大規模コーパスから学習データを構築しようという報告。XSumとSQuADで有効性を確認とのこと。

DataCLUE: Data-Centric AIのベンチマーク