データセット – ページ 21 – arXiv最新論文の紹介

ClidSum(Cross-LIngual Dialogue SUMmarization): クロスリンガルな対話要約データセットとmDialBARTモデル

ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization [41.7]
本稿では,対話文書を用いた言語間要約システム構築のためのベンチマークデータセットClidSumを提案する。それは、2つのサブセット(SAMSumとMediaSum)から67k以上の対話文書と、異なるターゲット言語における112k以上の注釈付き要約からなる。
論文参考訳（メタデータ） (Fri, 11 Feb 2022 13:32:14 GMT)
- クロスリンガルな対話要約データセットとモデルの提案。データセットの規模は大きく有用そう。モデルはmBART-50ベースで翻訳を併用する手法を上回る性能とのこと。
  - 8ページのSummarize-then-translate、Translate-then-summarizeを含む結果も非常に興味深い
- リポジトリはGitHub – krystalan/ClidSum: ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization、現状ではコード等はアップロードされておらず今月中にリリース予定とのこと。

NEWSKVQA: ニュースビデオに対するVQAデータセット

NEWSKVQA: Knowledge-Aware News Video Question Answering [5.7]
我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
論文参考訳（メタデータ） (Tue, 8 Feb 2022 17:31:31 GMT)
- ニュースビデオに対するVQA。12Kビデオクリップ、1M QAと非常に大規模なデータ。
- 論文中にデータセットへのリンク（Google Driveへのリンク）が存在

JaQuAD: 日本語のSQuADデータ

JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。 JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。 F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Feb 2022 18:40:25 GMT)
- 珍しい日本語のSQuADデータ、wikipediaデータがもとになっているよう。ライセンスはCC BY-SAと使いやすい。ぱっと見では高品質なデータのよう。
- リポジトリはGitHub – SkelterLabsInc/JaQuAD: JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension (2022, Skelter Labs)

DALL-Eval: 画像生成モデルを評価するデータセットと評価ツールキットPAINTSKILLS

DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers [83.1]
マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
論文参考訳（メタデータ） (Tue, 8 Feb 2022 18:36:52 GMT)
- DALL-Eのようなマルチモーダルな画像生成モデルに対する評価データセットでobject recognition, object counting, color recognition, spatial relation understandingの4つのスキルを評価対象としている。Social Biasに関する観点が入っているのが興味深い。
- リポジトリはGitHub – j-min/DallEval: DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers

Met Dataset: メトロポリタン美術館のデータセット

The Met Dataset: Instance-level Recognition for Artworks [19.4]
この研究は、アートワークの領域における大規模インスタンスレベルの認識のためのデータセットを導入している。私たちは、約224kクラスの大規模なトレーニングセットを形成するために、The Met博物館のオープンアクセスコレクションに依存しています。
論文参考訳（メタデータ） (Thu, 3 Feb 2022 18:13:30 GMT)
- メトロポリタン美術館がスタジオ等で撮影したデータとオンラインから集められたデータを用いたInstance-level recognitionのデータセット。規模が大きく題材も面白い。
- プロジェクトサイトはThe Met dataset (cvut.cz)、GitHub – nikosips/met: A large-scale dataset for instance-level recognition for artworks is introduced.

Ad-datasets: 自動運転のデータセットまとめ

Ad-datasets: a meta-collection of data sets for autonomous driving [5.3]
ad-datasetsは150以上のデータセットの概要を提供するオンラインツールである。ユーザーは16のカテゴリでデータセットをソートしてフィルタリングできる。
論文参考訳（メタデータ） (Thu, 3 Feb 2022 23:45:48 GMT)
- 自動運転に関連するデータセットを整理したサイト。ライセンス等の記載があるのもうれしいが、後半のデータについて概要等が欠けている気がする。。
- プロジェクトサイトはad Datasets (ad-datasets.com)

医療向けビデオ理解用のデータセットMedVidQA と MedVidCL

A Dataset for Medical Instructional Video Classification and Question Answering [16.7]
本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。
論文参考訳（メタデータ）参考訳（全文） (Sun, 30 Jan 2022 18:06:31 GMT)
- ビデオに対するQuestion Answeringと分類用データセット。医療ドメインのものは珍しいと思う。
- リポジトリはGitHub – deepaknlp/MedVidQACL: Implementation of the Benchmark Approaches for Medical Instructional Video Classification (MedVidCL) and Medical Video Question Answering (MedVidQA)

IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク

IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
論文参考訳（メタデータ） (Thu, 27 Jan 2022 18:53:22 GMT)
- 画像＋言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
- 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念（翻訳モデル開発者としてはうれしいが、未来感がない）
- プロジェクトサイトはHome | IGLUE (iglue-benchmark.github.io)

DrugOOD: AI支援創薬のためのベンチマーク

DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery — A Focus on Affinity Prediction Problems with Noise Annotations [90.3]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるDrugOOD を提案する。 DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文参考訳（メタデータ） (Mon, 24 Jan 2022 12:32:48 GMT)
- AI支援創薬のためのデータセット・ベンチマークの提案であるが、34ページとサーベイのような情報量。この分野に対する情報整理にも役立つ。
- プロジェクトサイトはDrugOOD: OOD Dataset Curator and Benchmark for AI-aided Drug Discovery | DrugOOD

WebUAV-3M: 大規模UAV追跡ベンチマーク

WebUAV-3M: A Benchmark Unveiling the Power of Million-Scale Deep UAV Tracking [40.8]
WebUAV-3Mは100万スケールの無人航空機(UAV)追跡ベンチマークである。われわれは、インターネットから3Mフレーム以上の4,485本のビデオを集めている。 WebUAV-3Mは、公的なUAV追跡ベンチマークとしては最大である。
論文参考訳（メタデータ）参考訳（全文） (Wed, 19 Jan 2022 05:39:42 GMT)
- 大規模なUAV Tracking（無人航空機から撮影された映像を使って物体を追跡するタスク）データセット・ベンチマーク。
- リポジトリはGitHub – 983632847/WebUAV-3M: WebUAV-3M

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28