SQuALITY: Summarization-format QUestion Answering with Long Input Texts, Yes!

  • SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.8]
    高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。 読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。 最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 23 May 2022 17:02:07 GMT)
    • 100のストーリー、500の質問、2000の要約からなるデータセット。ドキュメントの長さが平均5000wordsと長い。クラウドソーシングによる構築だが品質保持のための工夫がされているとのこと。
    • リポジトリはGitHub – nyu-mll/SQuALITY: Query-focused summarization data

CoCoA-MT: フォーマルさを考慮した機械翻訳データセット

  • CoCoA-MT: A Dataset and Benchmark for Contrastive Controlled MT with Application to Formality [22.4]
    敬語を扱う際には、特定の問題が生じる。 間違った音や不整合音を使用するのは不適切とみなされることがある。 ラベル付きコントラストデータを微調整することで,フォーマルさを制御するモデルが訓練できることを示す。
    論文  参考訳(メタデータ)   (Mon, 9 May 2022 04:05:36 GMT)

CiteSum: 論文のTLDR要約

  • CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation [41.5]
    我々は、人間のアノテーションを使わずに新しいベンチマークCiteSumを作成し、これは前回の人間計算データセットSciTLDRの約30倍の大きさである。 科学的極端の要約では、CITESは微調整なしでSciTLDR上で完全に制御された手法よりも優れている。 ニュースの極端な要約では、CITESはベースモデルよりもXSumに大きな利益を得ている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 12 May 2022 16:44:19 GMT)

Are All the Datasets in Benchmark Necessary?

  • Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification [39.0]
    本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 4 May 2022 15:33:00 GMT)
    • データセットによってモデルの識別能力に差があり、いくつかのデータセットは能力の高いモデル識別に寄与していないとの報告。
    • 感覚的には自明であり「難しいデータセット」と呼んでいたものはあったが、改めて整理される重要な特性であることが分かる。

WebFace260MとWebFace42M:顔認識データセット

  • WebFace260M: A Benchmark for Million-Scale Deep Face Recognition [89.4]
    我々は、未修正4MのID/260Mの顔(WebFace260M)とクリーン2MのID/42Mの顔(WebFace42M)を含む新しい100万スケールの認識ベンチマークに貢献する。 分散フレームワークは、性能を損なうことなく、顔認識モデルを効率的に訓練するために開発された。 提案したベンチマークは、標準、マスク付き、偏見のない顔認識シナリオにおいて大きな可能性を示している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 21 Apr 2022 14:56:53 GMT)
    • 非常に大規模な顔画像データセット。WebFace42Mの方は自動的なクリーニング済み。
    • プロジェクトサイトはWebFace260M (face-benchmark.org)、商業利用は不可で研究目的のデータ。

Natural Instructions v2: 自然言語で説明されたタスク

  • Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks [95.1]
    Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。 ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。 このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sat, 16 Apr 2022 03:12:30 GMT)
    • 自然言語で説明が付与されたタスク・データセット。
      • 自然言語で命令すればタスクをこなしてくれるモデルの実現が近づいている印象があり、重要なデータセットだと思う。
    • Learning From Instructions (allenai.org)

GRAPHELSUMS(summaries with graphical elements): グラフィカルな要約データセット

  • Summarization with Graphical Elements [55.6]
    本稿では,グラフィカル要素による要約という新しい課題を提案する。 タスクの研究を支援するために,高品質なラベル付きデータセットを収集する。
    論文  参考訳(メタデータ)   (Fri, 15 Apr 2022 17:16:41 GMT)
    • ナレッジグラフのような形で要約する新しい要約タスクの提案とデータセット、ベースモデルの提示。提案されたデータセットでは関係として「L = {who, what, what happens, what happened, what will happen, where, when, why}」が与えられており、このような関係で結ばれた小さな要約で構成されていると確かに読みやすい。

ViViD++: Vision for Visibility Dataset

  • ViViD++: Vision for Visibility Dataset [14.8]
    様々な輝度条件をターゲットとした多様な視覚データフォーマットを抽出したデータセットを提案する。 代替センサーの可能性にもかかわらず、代替視覚センサーを備えたデータセットは依然として少ない。 これらの測定結果と慣性センサーと接地構造を併用して,照明不良下でのロバストな視力SLAMを開発する。
    論文  参考訳(メタデータ)   (Thu, 14 Apr 2022 00:38:12 GMT)
    • 様々な種類のセンサーを含むデータセット。ただし「Please note that only education domains (.edu, *.ac. etc.) are allowed for download.」とのこと
    • プロジェクトサイトはViViD++ · Vision for Visibility Dataset

WikiDiverse: マルチモーダルなエンティティ・リンキングデータセット

  • WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types [25.6]
    MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。 WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。 WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
    論文  参考訳(メタデータ)   (Wed, 13 Apr 2022 12:52:40 GMT)
    • 画像を併用したエンティティリンキングのデータセット。人の手が入っておりクオリティが高いとのこと。ベースラインモデルでもマルチモーダルなデータ活用は有効そう。データ数は8Kキャプション、 ライセンスはCC BY-SA 4.0。 
    • リポジトリはGitHub – wangxw5/wikiDiverse

NumGLUE: 数学的推論のデータセット

  • NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.7]
    8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。 このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。 我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
    論文  参考訳(メタデータ)   (Tue, 12 Apr 2022 09:36:10 GMT)
    • 以下8タスクからなる数学的推論タスクのデータセット。ベースラインも用意されているがかなり困難なタスクに見える。
      • TASK 1 Commonsense + Arithmetic
      • TASK 2 Domain specific + Arithmetic
      • TASK 3 Commonsense + Quantitative
      • TASK 4 Fill-in-the-blanks
      • TASK 5 RC + Explicit Numerical Reasoning
      • TASK 6 RC + Implicit Numerical Reasoning
      • TASK 7 Quantitative NLI
      • TASK 8 Arithmetic word problems
  • プロジェクトサイトはNumGLUE Dataset — Allen Institute for AI (allenai.org)