HowSumm: クエリ指向マルチドキュメント要約データセット

  • HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow Articles [1.1]
    HowSummは、クエリ中心のマルチドキュメント要約(qMDS)タスクのための新しい大規模データセットである。 このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースとは異なる。 我々は,HowSumm を利用して要約研究を進めることを提案する。
    論文  参考訳(メタデータ)   (Thu, 7 Oct 2021 04:44:32 GMT)
    • wikiHowから作られたquery-focused multi-document summarization (qMDS)用のデータセット。wikiHowの記事中、(短い)ステップからのサマリーが84K (HowSumm-Step)、(長い)メソッドからのサマリーが11K (HowSumm-Method)と2種類データがある。データ量も大きく、この手のデータセットは非常に貴重。
      • ライセンスはCC BY-NC-SA 3.0で商用利用は禁止されている。
    • リポジトリはhttps://github.com/odelliab/HowSumm

FooDI-ML: マルチリンガルな食品画像+説明のデータセット

  • FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
    このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。 データセットにはスペイン語や英語など、広く話されている言語も含まれている。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 13:33:08 GMT)
    • 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
    • リポジトリはhttps://github.com/Glovo/foodi-ml-dataset

MK-DUC-01: マルチドキュメントでのキーフレーズ抽出

  • Multi-Document Keyphrase Extraction: A Literature Review and the First Dataset [24.9]
    文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。 ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
    論文  参考訳(メタデータ)   (Sun, 3 Oct 2021 19:10:28 GMT)
    • 文書からのキーフレーズ抽出は重要なタスクで、複数文書をまとめて評価したい場合も多い。本論文ではDUC-2001をベースにマルチドキュメントなキーフレーズ抽出用データセットを作成、現時点の手法をConcat(連結したドキュメントでフレーズ抽出)とMerge(各ドキュメントでフレーズ抽出した結果をマージして再処理)で比較している。

TLDR9+とTLDRHQ: 大規模要約データセット

  • TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media Posts [23.2]
    Redditのディスカッションフォーラムから抽出された900万以上のトレーニングインスタンスを含む、大規模な要約データセットを紹介します。 このデータセットは、極端な要約(すなわち、高い圧縮と抽象化で1文の要約を生成する)を行うために特別に収集され、以前提案されたデータセットの2倍以上の大きさである。
    論文  参考訳(メタデータ)   (Mon, 4 Oct 2021 02:40:55 GMT)

非構造文書からのテーブル構造推定と抽出

  • Scientific evidence extraction [0.0]
    我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。 PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。 PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
    論文  参考訳(メタデータ)   (Thu, 30 Sep 2021 19:42:07 GMT)
    • 簡単そうで(?)難しいPDFドキュメント内表形式データの認識とデータ抽出に関する論文。大規模(948K≒1M)なデータセットPubTable-1Mを作成、DETR(Detection Transformer)を TD (Table Detection), TSR(Table Structure Recognition), FA (Functional Analysis)に適用、優れた性能を達成したとのこと。
    • リポジトリはhttps://github.com/microsoft/table-transformer

StoryDB: 多言語なストーリーのデータセットとタスク

  • StoryDB: Broad Multi-language Narrative Dataset [0.3]
    StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。 すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグがラベル付けされる。
    論文  参考訳(メタデータ)   (Wed, 29 Sep 2021 12:59:38 GMT)
    • 42言語の物語のストーリー(概略)のデータセット。論文中にGoogle Driveのリンクがあるような配布形式なっている。その上で「Task A: プロットの(マルチラベルな)タグ分類」「Task B: クロスリンガルな設定のTask A(ある言語で学習した結果のゼロショット)」「Task C: 全言語で重複するプロットで学習」という3つのタスクを設定。
    • https://wandb.ai/altsoph/projects が検証結果のよう

RAFT(Realworld Annotated Few-shot Tasks): Few-shotなテキスト分類ベンチマーク

  • RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
    RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。 人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 22:35:31 GMT)
    • 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間(クラウドソーシング)のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。
      • ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
      • Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
      • NeurIPS impact statement risks (NIS): 論文が有害なアプリケーションに言及しているか
      • OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
      • Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
      • Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
      • Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
      • TAI safety research (TAI): 論文がtransformative artificial intelligenceの安全性研究に該当するか否か
      • Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
      • TweetEval Hate (TEH): ヘイトスピーチの検出タスク
      • Twitter complaints (TC): tweetに苦情を含むかを判別
    • プロジェクトサイトはhttps://raft.elicit.org/

OpenViDial 2.0: 大規模なマルチモーダル対話データセット

  • OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
    より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 28 Sep 2021 15:15:57 GMT)

PASS(Pictures without humAns for Self-Supervision) : 著作権や個人情報に配慮したデータセット

  • PASS: An ImageNet replacement for self-supervised pretraining without humans [152.3]
    本稿ではPASS(Pictures without humAns for Self-Supervision)を提案する。 PASSは、CC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。 PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。 PASSは、例えばベンチマークに不十分なため、既存のデータセットを陳腐化しない。しかしながら、より安全なデータを使用して、モデル事前トレーニングがしばしば可能であることを示し、事前トレーニングメソッドをより堅牢に評価する基盤を提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 27 Sep 2021 17:59:39 GMT)
    • 著作権/ライセンスに問題がなく(Creative Commonsの CC BY)、人物画像を含まないデータセットの提案。ラベルが無いという制約はあるものの、このようなデータセットは実務上ありがたい。
    • プロジェクトサイトはhttps://www.robots.ox.ac.uk/~vgg/research/pass/

FewNLU: Few-Shotな自然言語理解タスクの評価フレームワーク

  • FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding [89.9]
    本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。 評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
    論文  参考訳(メタデータ)   (Mon, 27 Sep 2021 00:57:30 GMT)
    • Few-shot性能を評価するためのフレームワークを提案。データ分割戦略、ハイパーパラメータの扱い(promptの扱い)など様々な側面で検討を行っている。
      • (k-fold CVよりMulti Splitの方が良いのはやや意外)
    • リポジトリはhttps://github.com/THUDM/FewNLU、プロジェクトサイトはhttps://fewnlu.github.io/でリーダーボードも存在。