データセット – ページ 20 – arXiv最新論文の紹介

JParaCrawl v3.0: 日英パラレルコーパス

JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [30.5]
本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。 JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
論文参考訳（メタデータ） (Fri, 25 Feb 2022 10:52:00 GMT)
- JParaCrawlのバージョン3、このデータで作成されたモデルの性能が大幅に上がっている。パラレルコーパスの公開は非常にありがたい（商用利用はできないなどライセンスには注意が必要）
  - 論文に書かれた性能だとFuguMTより上そう。。。強化が必要だな。。。
- プロジェクトサイトはJParaCrawl (ntt.co.jp)

CAISE(Conversational Agent for Image Search and Editing ): 対話型画像検索・編集データセット

CAISE: Conversational Agent for Image Search and Editing [109.6]
画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
論文参考訳（メタデータ） (Thu, 24 Feb 2022 00:55:52 GMT)
- 画像検索、編集を対話で行うモデル構築のためのデータセットを提案。ベースラインモデルも構築しているが、人との差は大きい。
  - Adobe Researchの論文で今後このようなインタフェースに期待大。
- リポジトリはGitHub – hyounghk/CAISE: Code and dataset for AAAI 2022 paper “CAISE: Conversational Agent for Image Search and Editing” Hyounghun Kim, Doo Soon Kim, Seunghyun Yoon, Franck Dernoncourt, Trung Bui, and Mohit Bansal

ArgSciChat: 学術論文を対象とした議論対話データセット

ArgSciChat: A Dataset for Argumentative Dialogues on Scientific Papers [61.8]
学術論文のドメインエキスパートとして科学者間の対話を収集する新しい枠組みを導入する。我々のフレームワークは、科学者が論文を対話の根拠として提示し、論文のタイトルを気に入った対話に参加することを可能にする。新しい議論的対話データセットArgSciChatの収集にフレームワークを使用します。 41の対話から収集された498のメッセージと20の科学論文からなる。
論文参考訳（メタデータ） (Mon, 14 Feb 2022 13:27:19 GMT)
- 科学者の対話という珍しいデータセット。科学的対話は難しい領域であることがわかったとのこと。
  - 会話エージェントがうまく動作しないという結果はそんなものだと思うが、その理由がはっきりしない気がしている。。。
- リポジトリはGitHub – federicoruggeri/argscichat_project: Official repository of paper “ArgSciChat: A Dataset of Argumentative Conversational Discussions on Scientific Papers”

対話システムにおける社会的バイアスとCDAIL-BIAS DATASET

Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and Benchmarks [95.3]
本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。中国初の社会バイアスダイアログデータセットであるCDail-Biasデータセットを紹介する。
論文参考訳（メタデータ） (Wed, 16 Feb 2022 11:59:29 GMT)
- 今後ユーザインタフェースとして普及が予想される対話システムにおいて、社内的バイアスの存在が問題視されている。その検出のためのデータセット（中国版）を作成、ベースラインを提供。
- データセットは今後公開予定とのこと。

ClidSum(Cross-LIngual Dialogue SUMmarization): クロスリンガルな対話要約データセットとmDialBARTモデル

ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization [41.7]
本稿では,対話文書を用いた言語間要約システム構築のためのベンチマークデータセットClidSumを提案する。それは、2つのサブセット(SAMSumとMediaSum)から67k以上の対話文書と、異なるターゲット言語における112k以上の注釈付き要約からなる。
論文参考訳（メタデータ） (Fri, 11 Feb 2022 13:32:14 GMT)
- クロスリンガルな対話要約データセットとモデルの提案。データセットの規模は大きく有用そう。モデルはmBART-50ベースで翻訳を併用する手法を上回る性能とのこと。
  - 8ページのSummarize-then-translate、Translate-then-summarizeを含む結果も非常に興味深い
- リポジトリはGitHub – krystalan/ClidSum: ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization、現状ではコード等はアップロードされておらず今月中にリリース予定とのこと。

NEWSKVQA: ニュースビデオに対するVQAデータセット

NEWSKVQA: Knowledge-Aware News Video Question Answering [5.7]
我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
論文参考訳（メタデータ） (Tue, 8 Feb 2022 17:31:31 GMT)
- ニュースビデオに対するVQA。12Kビデオクリップ、1M QAと非常に大規模なデータ。
- 論文中にデータセットへのリンク（Google Driveへのリンク）が存在

JaQuAD: 日本語のSQuADデータ

JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。 JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。 F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Feb 2022 18:40:25 GMT)
- 珍しい日本語のSQuADデータ、wikipediaデータがもとになっているよう。ライセンスはCC BY-SAと使いやすい。ぱっと見では高品質なデータのよう。
- リポジトリはGitHub – SkelterLabsInc/JaQuAD: JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension (2022, Skelter Labs)

DALL-Eval: 画像生成モデルを評価するデータセットと評価ツールキットPAINTSKILLS

DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers [83.1]
マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
論文参考訳（メタデータ） (Tue, 8 Feb 2022 18:36:52 GMT)
- DALL-Eのようなマルチモーダルな画像生成モデルに対する評価データセットでobject recognition, object counting, color recognition, spatial relation understandingの4つのスキルを評価対象としている。Social Biasに関する観点が入っているのが興味深い。
- リポジトリはGitHub – j-min/DallEval: DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers

Met Dataset: メトロポリタン美術館のデータセット

The Met Dataset: Instance-level Recognition for Artworks [19.4]
この研究は、アートワークの領域における大規模インスタンスレベルの認識のためのデータセットを導入している。私たちは、約224kクラスの大規模なトレーニングセットを形成するために、The Met博物館のオープンアクセスコレクションに依存しています。
論文参考訳（メタデータ） (Thu, 3 Feb 2022 18:13:30 GMT)
- メトロポリタン美術館がスタジオ等で撮影したデータとオンラインから集められたデータを用いたInstance-level recognitionのデータセット。規模が大きく題材も面白い。
- プロジェクトサイトはThe Met dataset (cvut.cz)、GitHub – nikosips/met: A large-scale dataset for instance-level recognition for artworks is introduced.

Ad-datasets: 自動運転のデータセットまとめ

Ad-datasets: a meta-collection of data sets for autonomous driving [5.3]
ad-datasetsは150以上のデータセットの概要を提供するオンラインツールである。ユーザーは16のカテゴリでデータセットをソートしてフィルタリングできる。
論文参考訳（メタデータ） (Thu, 3 Feb 2022 23:45:48 GMT)
- 自動運転に関連するデータセットを整理したサイト。ライセンス等の記載があるのもうれしいが、後半のデータについて概要等が欠けている気がする。。
- プロジェクトサイトはad Datasets (ad-datasets.com)

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31