EntSUM: Entity-Centricな要約データセット

  • EntSUM: A Data Set for Entity-Centric Summarization [27.8]
    制御可能な要約は、ユーザが指定した側面や好みを考慮に入れた要約を提供することを目的としている。 本稿では、制御可能な要約のための人間アノテーション付きデータセットEntSUMを紹介し、制御の側面として名前付きエンティティに焦点を当てる。
    論文  参考訳(メタデータ)   (Tue, 5 Apr 2022 13:45:54 GMT)

FairytaleQA : 物語理解のためのQAデータセット

  • Fantastic Questions and Where to Find Them: FairytaleQA — An Authentic Dataset for Narrative Comprehension [136.8]
    幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。 FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
    論文  参考訳(メタデータ)   (Sat, 26 Mar 2022 00:20:05 GMT)
    • 物語ドメインのQAデータセット。規模はそれなりという感じだが、セクション限定を行わない場合、長めのテキストを扱う必要がありそう。

lfqa_discourse

BigDetection: Object detection用大規模データセット

IAM: 議論マイニングのための包括的な大規模なデータセット

  • IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks [59.5]
    本稿では,一連の議論マイニングタスクに適用可能なIAMという,包括的で大規模なデータセットを提案する。 データセットの70k近い文は、引数特性に基づいて完全に注釈付けされている。 議論準備プロセスに関連する2つの新しい統合された議論マイニングタスクを提案する。(1) 姿勢分類付きクレーム抽出(CESC)と(2) クレーム・エビデンス・ペア抽出(CEPE)である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 24 Mar 2022 03:27:52 GMT)
    • 議論マイニングのため、 Claim Extraction with Stance Classification (CESC) と Claim-Evidence Pair Extraction (CEPE)タスクを設定、データセットを作成、ベースラインを提供
      • IAM = Integrated Argument Mining ?

WuDaoMM: 大規模な画像・テキストのマルチモーダルデータセット

  • WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.6]
    我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。 画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。 具体的には、画像とキャプションの相関が弱い複数のWebページから約6億のデータを収集し、他の5000万の強い関連画像テキストペアを高品質なグラフィックWebサイトから収集する。 また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 22 Mar 2022 06:12:20 GMT)
    • テキスト・画像の大規模データセット。研究目的にのみ利用可能。
    • プロジェクトサイトはresource (wudaoai.cn)

XTREME-S: クロスリンガルな音声表現ベンチマーク

  • XTREME-S: Evaluating Cross-lingual Speech Representations [75.4]
    XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。 本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 21 Mar 2022 06:50:21 GMT)
    • speech recognition、speech classification、speech translation、speech retrievalのタスクに対する多言語データセット
    • Huggingfaceからダウンロード可能とのことだが、現時点では404 https://huggingface.co/datasets/google/xtreme_s

SciNLI:科学に関連するテキストのNLI

ToxiGen: 機械作成された13のグループに対するHate Speech検出(有毒/良性文)のデータセット

  • ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection [33.7]
    ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。 このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。 有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 17 Mar 2022 17:57:56 GMT)
    • GPT-3を使って構築したHate speechのデータセット。ビームサーチ中にALICEと呼ばれる「事前訓練された言語モデルと毒性分類器間のゲーム」を入れることで品質の高い(検出の難しい)文を生成とのこと。

Chart-to-Text:グラフを自然言語で表現するためのデータセット

  • Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.6]
    2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。 データセット構築プロセスを説明し、データセットを解析する。
    論文  参考訳(メタデータ)   (Sat, 12 Mar 2022 17:01:38 GMT)
    • グラフの説明をするモデル構築のためのデータセットとベースラインの提案。比較を含むためテキスト生成の中でも難しいタスクのように感じる。
    • リポジトリはGitHub – vis-nlp/Chart-to-textとのこと。(現状ではアップロードされていない)