フェルミ推定問題を解く自然言語処理

  • How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New Reasoning Challenge for AI [32.5]
    我々は新たな推論問題、すなわちフェルミ問題(Fermi Problems, FPs)を提案する。 FPは、その正確な計算が非現実的であるか不可能なものに対して答えをおよそ見積もる質問である。 1)クイズ及びオリンピアードから得られた1k個の現実世界FPの収集、 2) より複雑な10kの合成FPはより難しい現実的課題のサンドボックスとして機能する。 質問応答ペアに加えて、データセットには実行可能プログラムの形式で詳細なソリューションが含まれている
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 27 Oct 2021 06:39:33 GMT)
    • フェルミ推定用データセットとそのタスクの提案。「問題を創造的に解決可能なチャンクに分解し、常識推論の能力をテスト」を目標にしているのこと。答えに至るまでの過程として、答えをサポートするファクトやその説明がデータに含まれているのが特徴的。T5を使用しかなりFine-tuningしても性能は低く、難しいタスクとのこと。

ConditionalQA: 条件に応じた回答を含むQAデータセット

  • ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers [93.6]
    条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。 このデータセットを ConditionalQA と呼びます。 本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
    論文  参考訳(メタデータ)   (Wed, 13 Oct 2021 17:16:46 GMT)
    • 質問に対して「〇〇の場合はyes」「△△の場合はno」のように、回答に条件があるタイプのQAデータセット。機械的に解くことは簡単ではなく人間とのスコア差が大きいとのこと。この手の質問回答は現実社会で普通に見られるため重要なタスクであるとの印象。
    • リポジトリはhttps://github.com/haitian-sun/ConditionalQA、リーダーボードも存在。

ドキュメントの単純化タスク

  • Document-Level Text Simplification: Dataset, Criteria and Baseline [75.6]
    文書レベルのテキスト単純化の新しいタスクを定義し,検討する。 Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。 本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Oct 2021 08:15:31 GMT)

HowSumm: クエリ指向マルチドキュメント要約データセット

  • HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow Articles [1.1]
    HowSummは、クエリ中心のマルチドキュメント要約(qMDS)タスクのための新しい大規模データセットである。 このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースとは異なる。 我々は,HowSumm を利用して要約研究を進めることを提案する。
    論文  参考訳(メタデータ)   (Thu, 7 Oct 2021 04:44:32 GMT)
    • wikiHowから作られたquery-focused multi-document summarization (qMDS)用のデータセット。wikiHowの記事中、(短い)ステップからのサマリーが84K (HowSumm-Step)、(長い)メソッドからのサマリーが11K (HowSumm-Method)と2種類データがある。データ量も大きく、この手のデータセットは非常に貴重。
      • ライセンスはCC BY-NC-SA 3.0で商用利用は禁止されている。
    • リポジトリはhttps://github.com/odelliab/HowSumm

FooDI-ML: マルチリンガルな食品画像+説明のデータセット

  • FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
    このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。 データセットにはスペイン語や英語など、広く話されている言語も含まれている。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 13:33:08 GMT)
    • 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
    • リポジトリはhttps://github.com/Glovo/foodi-ml-dataset

MK-DUC-01: マルチドキュメントでのキーフレーズ抽出

  • Multi-Document Keyphrase Extraction: A Literature Review and the First Dataset [24.9]
    文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。 ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
    論文  参考訳(メタデータ)   (Sun, 3 Oct 2021 19:10:28 GMT)
    • 文書からのキーフレーズ抽出は重要なタスクで、複数文書をまとめて評価したい場合も多い。本論文ではDUC-2001をベースにマルチドキュメントなキーフレーズ抽出用データセットを作成、現時点の手法をConcat(連結したドキュメントでフレーズ抽出)とMerge(各ドキュメントでフレーズ抽出した結果をマージして再処理)で比較している。

TLDR9+とTLDRHQ: 大規模要約データセット

  • TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media Posts [23.2]
    Redditのディスカッションフォーラムから抽出された900万以上のトレーニングインスタンスを含む、大規模な要約データセットを紹介します。 このデータセットは、極端な要約(すなわち、高い圧縮と抽象化で1文の要約を生成する)を行うために特別に収集され、以前提案されたデータセットの2倍以上の大きさである。
    論文  参考訳(メタデータ)   (Mon, 4 Oct 2021 02:40:55 GMT)

非構造文書からのテーブル構造推定と抽出

  • Scientific evidence extraction [0.0]
    我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。 PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。 PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
    論文  参考訳(メタデータ)   (Thu, 30 Sep 2021 19:42:07 GMT)
    • 簡単そうで(?)難しいPDFドキュメント内表形式データの認識とデータ抽出に関する論文。大規模(948K≒1M)なデータセットPubTable-1Mを作成、DETR(Detection Transformer)を TD (Table Detection), TSR(Table Structure Recognition), FA (Functional Analysis)に適用、優れた性能を達成したとのこと。
    • リポジトリはhttps://github.com/microsoft/table-transformer

StoryDB: 多言語なストーリーのデータセットとタスク

  • StoryDB: Broad Multi-language Narrative Dataset [0.3]
    StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。 すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグがラベル付けされる。
    論文  参考訳(メタデータ)   (Wed, 29 Sep 2021 12:59:38 GMT)
    • 42言語の物語のストーリー(概略)のデータセット。論文中にGoogle Driveのリンクがあるような配布形式なっている。その上で「Task A: プロットの(マルチラベルな)タグ分類」「Task B: クロスリンガルな設定のTask A(ある言語で学習した結果のゼロショット)」「Task C: 全言語で重複するプロットで学習」という3つのタスクを設定。
    • https://wandb.ai/altsoph/projects が検証結果のよう

RAFT(Realworld Annotated Few-shot Tasks): Few-shotなテキスト分類ベンチマーク

  • RAFT: A Real-World Few-Shot Text Classification Benchmark [0.9]
    RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。 人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。 RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 22:35:31 GMT)
    • 11のデータセットからなるFew-Shot用ベンチマーク。リアルなデータにフォーカスしていることが特徴的とのこと。現状のリーダーボード首位はGPT-3。人間(クラウドソーシング)のベースラインとは差があるが、人間であっても完璧とはいえないスコアであることも興味深い。
      • ADE Corpus V2 (ADE): ある文が薬の副作用と関連しているかどうか
      • Banking77 (B77): オンラインバンキングカスタマーサービスのクエリーに対して77のインテントがアノテーションされたデータ
      • NeurIPS impact statement risks (NIS): 論文が有害なアプリケーションに言及しているか
      • OneStopEnglish (OSE): The Guardianの記事をレベル別にリライトしたもの
      • Overruling (Over): 過去の判例を無効化しているかアノテーションしたデータ
      • Semiconductor org types (SOT): 半導体の学会に寄与したデータを大学、企業、研究機関に分類したデータ
      • Systematic review inclusion (SRI): 慈善団体への寄付を増やすための研究のメタレビューのデータ、論文が審査を通過するか否か
      • TAI safety research (TAI): 論文がtransformative artificial intelligenceの安全性研究に該当するか否か
      • Terms of Service (ToS): サービスの利用規約が消費者に不公平か否か
      • TweetEval Hate (TEH): ヘイトスピーチの検出タスク
      • Twitter complaints (TC): tweetに苦情を含むかを判別
    • プロジェクトサイトはhttps://raft.elicit.org/