データセット – ページ 22 – arXiv最新論文の紹介

CUGE(Chinese Language Understanding and Generation): 中国語の言語理解、生成ベンチマーク

CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark [144.1]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文参考訳（メタデータ） (Mon, 27 Dec 2021 11:08:58 GMT)
- 自然言語タスクが幅広く扱われたベンチマークで、階層別に整理されておりリーダーボードが存在。
  - 日本語版が欲しい・・・動きはあるようなので、このような統一的なものが作られることを期待
- プロジェクトサイトは智源指数 (baai.ac.cn)

MuMuQA(Multimedia Multi-Hop news Question Answering)

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文参考訳（メタデータ）参考訳（全文） (Mon, 20 Dec 2021 18:23:30 GMT)
- クロスメディア（画像、キャプション、ニュース本文）、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用（Silver Training Set）のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
- リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon

MAVE(Multi-source Attribute Value Extraction): 属性情報抽出データセット

MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.4]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。 MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文参考訳（メタデータ） (Thu, 16 Dec 2021 06:48:31 GMT)
- 商品名や概要、レビューなど商品属性を抽出するタスクのデータセット。220万の商品、1257の商品カテゴリ、300万のアノテーションと大規模。ゼロショットを含めベースラインモデルでの検証が行われており、その結果も参考になる。
- リポジトリはGitHub – google-research-datasets/MAVE: The dataset contains 3 million attribute-value annotations across 1257 unique categories on 2.2 million cleaned Amazon product profiles. It is a large, multi-sourced, diverse dataset for product attribute extraction study.

3D Question Answering：3次元の質問回答データセットScanQAと3DQA-TRフレームワーク

3D Question Answering [22.2]
VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。本稿では,新しい3DQAフレームワーク 3DQA-TR を提案する。提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットScanQAを開発した。
論文参考訳（メタデータ） (Wed, 15 Dec 2021 18:59:59 GMT)
- ありそうでなかった3次元空間上のQAデータセットとそれを扱うフレームワークの提案。ScanNet | Richly-annotated 3D Reconstructions of Indoor Scenes (scan-net.org)の806シーンに対して6K質問、30K回答とそれなりの規模。
- データ等は公開予定とのこと。

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
論文参考訳（メタデータ）参考訳（全文） (Thu, 9 Dec 2021 13:21:26 GMT)
- 大規模なOpen World Video Textベンチマークデータセットの提案。
- リポジトリはGitHub – weijiawu/TransVTSpotter: A new video text spotting framework with Transformer

教師無しドメイン適合のためのWILDS Benchmark

Extending the WILDS Benchmark for Unsupervised Adaptation [186.9]
機械学習システムはしばしば異なるターゲットディストリビューションにデプロイされる。 WILDSの分散シフトベンチマークの10データセットのうち8データセットを拡張して,デプロイ時に現実的に取得可能な未ラベルデータを含むようにする。一貫性を維持するため、ラベル付きトレーニング、検証、テストセット、評価メトリクスは、オリジナルのWILDSベンチマークとまったく同じである。これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
論文参考訳（メタデータ） (Thu, 9 Dec 2021 18:32:38 GMT)
- WILDSベンチマークの拡張版の提案。未ラベルデータを含むことでドメイン適合を行った場合のベンチマークが可能に。
- プロジェクトサイトはWILDS (stanford.edu)

Fusion Brain Challenge on AI Journey 2021: マルチタスク・マルチモーダルモデルのコンペティション

Many Heads but One Brain: an Overview of Fusion Brain Challenge on AI Journey 2021 [46.6]
Fusion Brain Challengeは、ユニバーサルアーキテクチャプロセスを異なるモダリティにすることを目的としている。参加者の提出したタスクをテストするために、各タスクのためのデータセットを作成しました。データセットには世界最大のロシア語手書きデータセットを含む。
論文参考訳（メタデータ） (Mon, 22 Nov 2021 03:46:52 GMT)
- C2C(Code2code Translation)、HTR(Handwritten Text Recognition), zsOD(Zero-shot Object Detection) , VQA(Visual Question Answering)に対して有効なマルチモーダルなアーキテクチャを作れるか？のコンペティション。データセットが複数用意されており、そのデータも重要。
- リポジトリはfusion_brain_aij2021/README_EN.md at main · sberbank-ai/fusion_brain_aij2021 · GitHub、ベースラインとなるサーベイも非常に参考になる。fusion_brain_aij2021/Papers on multitask & multimodal models_en.md at main · sberbank-ai/fusion_brain_aij2021 · GitHub

TWEETSUMM : 対話要約データセット

TWEETSUMM — A Dialog Summarization Dataset for Customer Service [13.7]
6500人近い注釈付き要約を含む,最初の大規模,高品質,顧客ケアダイアログ要約データセットを紹介した。データは現実世界のカスタマーサポートダイアログに基づいており、抽出と抽象の両方の要約を含んでいる。また,ダイアログに特有な非教師付き抽出要約手法も導入した。
論文参考訳（メタデータ） (Tue, 23 Nov 2021 14:13:51 GMT)
- Customer Support on Twitter | Kaggleをベースに人間によって作成された抽出/抽象型両形式の要約データセット。データ量は1100対話、3056抽出型要約、3327抽象型要約。
- リポジトリはGitHub – guyfe/Tweetsumm: A dataset focused on summarization of dialogs, which represents the rich domain of Twitter customer care conversations、ライセンスはCommunity Data License Agreement – Sharing, Version 1.0 – CDLAとのこと。

SLUE(Spoken Language Understanding Evaluation): 音声言語理解のためのベンチマーク

SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文参考訳（メタデータ） (Fri, 19 Nov 2021 18:59:23 GMT)
- 音声を用いたASR（Automatic Speech Recognition）、NER（Named Entity Recognition）、SA（Sentiment Analysis）タスクのベンチマーク。
- プロジェクトサイトはGitHub – asappresearch/slue-toolkit

DataCLUE: Data-Centric AIのベンチマーク

DataCLUE: A Benchmark Suite for Data-centric NLP [11.0]
データ中心のAIは、モデルパフォーマンスを改善するためにデータセットの品質を改善することを強調する。 NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。我々は,人間のアノテーションを用いた総合的な実験を行い,DataCLUEの難しさを示す。
論文参考訳（メタデータ）参考訳（全文） (Wed, 17 Nov 2021 16:24:55 GMT)
- モデル性能向上のためデータの品質向上を重視する、Data-centric AIに関するベンチマーク（コンペティション）。CLUE(Chinese Language Understanding Evaluation Benchmark)をベースにしているので中国語版。
  - Data-Centric AI Competition (https-deeplearning-ai.github.io)のようなコンペが開かれていたりもして興味深い活動。
  - FuguMTのデータで似たようなことやれないかなと思いつつ、機械翻訳モデルは学習コストが高いのが難点だなと思う。
- プロジェクトサイト（英語版）はhttps://github.com/CLUEbenchmark/DataCLUE/blob/master/README_en.md
ニューラル機械翻訳モデルと対訳データの品質 | ぷるーふおぶこんせぷと (staka.jp)　でも記載した通り、ニューラル機械翻訳モデル構築においては対訳データの品質が非常に重要。FuguMTのデータを用いてデータ中心（データの品質向上技術を競う）ベンチマークを作りたいなと思わなくもない。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31