データセット – ページ 19 – arXiv最新論文の紹介

BigDetection: Object detection用大規模データセット

BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training [44.3]
我々はBigDetectionと呼ばれる新しい大規模ベンチマークを構築した。私たちのデータセットには600のオブジェクトカテゴリがあり、3.4M以上のトレーニングイメージと36Mのバウンディングボックスが含まれています。
論文参考訳（メタデータ） (Thu, 24 Mar 2022 17:57:29 GMT)
- 大規模な物体検出用データセットの提案。ベースラインも用意されている。
- リポジトリはGitHub – amazon-research/bigdetection: BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training

IAM: 議論マイニングのための包括的な大規模なデータセット

IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks [59.5]
本稿では,一連の議論マイニングタスクに適用可能なIAMという,包括的で大規模なデータセットを提案する。データセットの70k近い文は、引数特性に基づいて完全に注釈付けされている。議論準備プロセスに関連する2つの新しい統合された議論マイニングタスクを提案する。(1) 姿勢分類付きクレーム抽出(CESC)と(2) クレーム・エビデンス・ペア抽出(CEPE)である。
論文参考訳（メタデータ）参考訳（全文） (Thu, 24 Mar 2022 03:27:52 GMT)
- 議論マイニングのため、 Claim Extraction with Stance Classiﬁcation (CESC) と Claim-Evidence Pair Extraction (CEPE)タスクを設定、データセットを作成、ベースラインを提供
  - IAM = Integrated Argument Mining　？
- リポジトリはGitHub – LiyingCheng95/IAM

WuDaoMM: 大規模な画像・テキストのマルチモーダルデータセット

WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.6]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。具体的には、画像とキャプションの相関が弱い複数のWebページから約6億のデータを収集し、他の5000万の強い関連画像テキストペアを高品質なグラフィックWebサイトから収集する。また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文参考訳（メタデータ）参考訳（全文） (Tue, 22 Mar 2022 06:12:20 GMT)
- テキスト・画像の大規模データセット。研究目的にのみ利用可能。
- プロジェクトサイトはresource (wudaoai.cn)

XTREME-S: クロスリンガルな音声表現ベンチマーク

XTREME-S: Evaluating Cross-lingual Speech Representations [75.4]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 21 Mar 2022 06:50:21 GMT)
- speech recognition、speech classiﬁcation、speech translation、speech retrievalのタスクに対する多言語データセット
- Huggingfaceからダウンロード可能とのことだが、現時点では404 https://huggingface.co/datasets/google/xtreme_s

SciNLI:科学に関連するテキストのNLI

SciNLI: A Corpus for Natural Language Inference on Scientific Text [47.3]
我々は,NLIのための大規模データセットであるSciNLIを紹介した。我々の実験によると、SciNLIは既存のNLIデータセットよりも分類が難しい。
論文参考訳（メタデータ） (Sun, 13 Mar 2022 18:23:37 GMT)
- NLP とcomputational linguisticsの論文から抽出された107KデータのNLIデータセット。通常のテキストより読解困難とのこと。
  - 理由が気になる・・・
- リポジトリはGitHub – msadat3/SciNLI: The dataset and code for ACL 2022 paper “SciNLI: A Corpus for Natural Language Inference on Scientific Text” will be released here.

ToxiGen: 機械作成された13のグループに対するHate Speech検出（有毒/良性文）のデータセット

ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection [33.7]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文参考訳（メタデータ）参考訳（全文） (Thu, 17 Mar 2022 17:57:56 GMT)
- GPT-3を使って構築したHate speechのデータセット。ビームサーチ中にALICEと呼ばれる「事前訓練された言語モデルと毒性分類器間のゲーム」を入れることで品質の高い（検出の難しい）文を生成とのこと。
- リポジトリはhttps://github.com/microsoft/ToxiGenとのことだが、今は404。

Chart-to-Text：グラフを自然言語で表現するためのデータセット

Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.6]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。データセット構築プロセスを説明し、データセットを解析する。
論文参考訳（メタデータ） (Sat, 12 Mar 2022 17:01:38 GMT)
- グラフの説明をするモデル構築のためのデータセットとベースラインの提案。比較を含むためテキスト生成の中でも難しいタスクのように感じる。
- リポジトリはGitHub – vis-nlp/Chart-to-textとのこと。（現状ではアップロードされていない）

DUAL(Discrete Unit Adaptive Learning): TextlessなSQA(Spoken Question Answering)

DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.7]
SQA (Spoken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文参考訳（メタデータ） (Wed, 9 Mar 2022 17:46:22 GMT)
- Textlessな(音声認識を使わない)SQAフレームワークの提案。データセットとしてNatural Multi-Speaker Spoken Question Answering (NMSQA)も合わせて公開している。
- ASRを併用するアプローチと競合的な結果で（当たり前ではあるが）ASR品質によっては提案手法が優れていることがあるとのこと。
- リポジトリはGitHub – DanielLin94144/DUAL-textless-SQA: The official implementation of DUAL textless SQA

PeerSum: ピアレビューを用いたMulti-document summarizationデータセット

PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization [37.5]
PeerSumは、科学出版物のピアレビューを用いた新しいMDSデータセットである。現在のMDSモデルは、PeerSumの高品質な要約を生成するのに苦労しています。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Mar 2022 15:27:02 GMT)
- ICLRとNeurIPSのレビューデータをスクレイピング、メタレビュー部分を高品質な抽象型要約用データとして使えるとの指摘。レビュー→メタレビューという問題設定はそもそも実用上重要で面白い。
- リポジトリはGitHub – oaimli/PeerSum: PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization、現状ではアップされていない。

MSCTD(Multimodal Sentiment Chat Translation Dataset): マルチモーダルな機械翻訳データセット

MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.8]
マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。 MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
論文参考訳（メタデータ） (Mon, 28 Feb 2022 09:40:46 GMT)
- マルチモーダル（画像＋テキスト）な機械翻訳データセットと対話勘定分析データセット。17.8K対話、173K発話・画像と大規模。ベースラインモデルも提供されており、画像を併用した方が性能が向上している。
- リポジトリはGitHub – XL2248/MSCTD、現時点ではデータ等はアップされていない。。。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31