データセット – ページ 24 – arXiv最新論文の紹介

数学的推論用データセットGSM8Kと検証モデルの有効性

Training Verifiers to Solve Math Word Problems [12.3]
GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。最大のモデルでさえ高いテスト性能を達成できないことがわかった。性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
論文参考訳（メタデータ） (Wed, 27 Oct 2021 04:49:45 GMT)
- 自然言語処理ではまだ解くことが難しい、マルチホップな数学的推論が必要なデータセットの提案。巨大モデルでも解くのが難しいが、検証（Veriﬁcation）を行うモデルを用いることで性能が向上（30倍のサイズのモデルに匹敵）したとのこと。
  - 分野の得意不得意と解釈してよいのか、言語理解の有無と解釈してよいのか、いろいろと考えさせられる結果。
- リポジトリはhttps://github.com/openai/grade-school-math

IconQA: Icon Question Answering データセット

IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning [132.5]
IconQA(Icon Question Answering)の新たな課題を紹介する。 IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。さらに、377クラスに645,687個のアイコンを含むアイコンデータセットIcon645をリリースしました。
論文参考訳（メタデータ）参考訳（全文） (Mon, 25 Oct 2021 18:52:26 GMT)
- 抽象的な図（アイコン画像）を対象としてVisual Question Answeringタスクとデータセットの提案。QAに解くのに必要なスキルが紐づいていたり、人間のパフォーマンスが計測されているなど非常に有能なデータセットとの印象。ライセンスは CC BY-NC-SA
- リポジトリはhttps://iconqa.github.io/

フェルミ推定問題を解く自然言語処理

How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New Reasoning Challenge for AI [32.5]
我々は新たな推論問題、すなわちフェルミ問題(Fermi Problems, FPs)を提案する。 FPは、その正確な計算が非現実的であるか不可能なものに対して答えをおよそ見積もる質問である。 1)クイズ及びオリンピアードから得られた1k個の現実世界FPの収集、 2) より複雑な10kの合成FPはより難しい現実的課題のサンドボックスとして機能する。質問応答ペアに加えて、データセットには実行可能プログラムの形式で詳細なソリューションが含まれている
論文参考訳（メタデータ）参考訳（全文） (Wed, 27 Oct 2021 06:39:33 GMT)
- フェルミ推定用データセットとそのタスクの提案。「問題を創造的に解決可能なチャンクに分解し、常識推論の能力をテスト」を目標にしているのこと。答えに至るまでの過程として、答えをサポートするファクトやその説明がデータに含まれているのが特徴的。T5を使用しかなりFine-tuningしても性能は低く、難しいタスクとのこと。
- プロジェクトサイトはhttps://allenai.org/data/fermi

ConditionalQA: 条件に応じた回答を含むQAデータセット

ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers [93.6]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。このデータセットを ConditionalQA と呼びます。本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文参考訳（メタデータ） (Wed, 13 Oct 2021 17:16:46 GMT)
- 質問に対して「〇〇の場合はyes」「△△の場合はno」のように、回答に条件があるタイプのQAデータセット。機械的に解くことは簡単ではなく人間とのスコア差が大きいとのこと。この手の質問回答は現実社会で普通に見られるため重要なタスクであるとの印象。
- リポジトリはhttps://github.com/haitian-sun/ConditionalQA、リーダーボードも存在。

ドキュメントの単純化タスク

Document-Level Text Simplification: Dataset, Criteria and Baseline [75.6]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。 Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 11 Oct 2021 08:15:31 GMT)
- 文書を単純化（読みやすくする）タスクの提案。日本語だと（文単位ではなく）あるドキュメントを「やさしい日本語」にするタスクのイメージ。
- この研究ではシンプル英語版ウィキペディアをベースにデータセットを作成、ベースラインモデルを構築、人の評価に近い結果を示すD-SARIという新たなメトリックを提案している。
- リポジトリはhttps://github.com/RLSNLP/Document-level-text-simplificationとのことだが、現時点では404

HowSumm: クエリ指向マルチドキュメント要約データセット

HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow Articles [1.1]
HowSummは、クエリ中心のマルチドキュメント要約(qMDS)タスクのための新しい大規模データセットである。このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースとは異なる。我々は,HowSumm を利用して要約研究を進めることを提案する。
論文参考訳（メタデータ） (Thu, 7 Oct 2021 04:44:32 GMT)
- wikiHowから作られたquery-focused multi-document summarization (qMDS)用のデータセット。wikiHowの記事中、（短い）ステップからのサマリーが84K (HowSumm-Step)、（長い）メソッドからのサマリーが11K (HowSumm-Method)と2種類データがある。データ量も大きく、この手のデータセットは非常に貴重。
  - ライセンスはCC BY-NC-SA 3.0で商用利用は禁止されている。
- リポジトリはhttps://github.com/odelliab/HowSumm

FooDI-ML: マルチリンガルな食品画像＋説明のデータセット

FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。データセットにはスペイン語や英語など、広く話されている言語も含まれている。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 13:33:08 GMT)
- 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
- リポジトリはhttps://github.com/Glovo/foodi-ml-dataset

MK-DUC-01: マルチドキュメントでのキーフレーズ抽出

Multi-Document Keyphrase Extraction: A Literature Review and the First Dataset [24.9]
文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
論文参考訳（メタデータ） (Sun, 3 Oct 2021 19:10:28 GMT)
- 文書からのキーフレーズ抽出は重要なタスクで、複数文書をまとめて評価したい場合も多い。本論文ではDUC-2001をベースにマルチドキュメントなキーフレーズ抽出用データセットを作成、現時点の手法をConcat（連結したドキュメントでフレーズ抽出）とMerge（各ドキュメントでフレーズ抽出した結果をマージして再処理）で比較している。
- リポジトリはhttps://github.com/OriShapira/MkDUC-01。現時点でデータは公開されていないが、有用そうで期待大。

TLDR9+とTLDRHQ: 大規模要約データセット

TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media Posts [23.2]
Redditのディスカッションフォーラムから抽出された900万以上のトレーニングインスタンスを含む、大規模な要約データセットを紹介します。このデータセットは、極端な要約(すなわち、高い圧縮と抽象化で1文の要約を生成する)を行うために特別に収集され、以前提案されたデータセットの2倍以上の大きさである。
論文参考訳（メタデータ） (Mon, 4 Oct 2021 02:40:55 GMT)
- Redditから取得された要約用大規模データセット。クオリティの高いデータを集めたTLDRHQでも1.67Mと規模が大きい。
- リポジトリはhttps://github.com/sajastu/reddit_collector

非構造文書からのテーブル構造推定と抽出

Scientific evidence extraction [0.0]
我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。 PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。 PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
論文参考訳（メタデータ） (Thu, 30 Sep 2021 19:42:07 GMT)
- 簡単そうで（？）難しいPDFドキュメント内表形式データの認識とデータ抽出に関する論文。大規模（948K≒1M）なデータセットPubTable-1Mを作成、DETR(Detection Transformer)を TD (Table Detection), TSR(Table Structure Recognition), FA (Functional Analysis)に適用、優れた性能を達成したとのこと。
- リポジトリはhttps://github.com/microsoft/table-transformer

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31