データセット – ページ 11 – arXiv最新論文の紹介

TGDataset

TGDataset: a Collection of Over One Hundred Thousand Telegram Channels [69.2]
本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
論文参考訳（メタデータ） (Thu, 9 Mar 2023 15:42:38 GMT)
120,979のTelegramチャネルと4億以上のメッセージを含む巨大なデータセット、約460 GB、snowball approach（シードとなるチャネルから初めて送信元チャネルを取得していく）で作成されたとのこと。
リポジトリはGitHub – SystemsLab-Sapienza/TGDataset: A collection of over 120’000 Telegram Channels、TGDataset | Zenodo

SMC-Bench

Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.2]
Sparsity May Cry”ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。 SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文参考訳（メタデータ） (Fri, 3 Mar 2023 18:47:21 GMT)
sparse neural network評価用のベンチマーク。難しいタスクを選ぶことで性能がより正確に測れそう。（というか簡単なタスクだとよくわからない）
リポジトリはGitHub – VITA-Group/SMC-Bench: [ICLR 2023] “Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together!” Shiwei Liu, Tianlong Chen, Zhenyu Zhang, Xuxi Chen, Tianjin Huang, AJAY KUMAR JAISWAL, Zhangyang Wang

CroCoSum

CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文参考訳（メタデータ） (Tue, 7 Mar 2023 17:52:51 GMT)
クロスリンガルな要約データセット。英語→中国語。
「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。（日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う）
異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404

BrackishMOT

BrackishMOT: The Brackish Multi-Object Tracking Dataset [20.5]
濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。 BrackishMOTは、野生で捕獲された98のシークエンスから構成される。新しいデータセットに加えて、最先端のトラッカーをトレーニングしてベースライン結果を示す。トレーニング中に合成データを含めることの効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータを組み合わせることで,追跡性能が向上することを示した。
論文参考訳（メタデータ） (Tue, 21 Feb 2023 13:02:36 GMT)
海洋生物のMulti Object Trachking用データセット。合成データ生成フレームワークも提案している。データセットのクラスには (1) ﬁsh, (2) crab, (3) shrimp, (4) starﬁsh, (5) small ﬁsh, (6) jellyﬁshが含まれているとのこと。ライセンスはCC BY-NC-SA 4.0
プロジェクトサイトはBrackishMOT | vap.aau.dk

ROOTS Search Tool

The ROOTS Search Tool: Data Transparency for LLMs [116.6]
ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。本稿では,ROOTS 検索ツールについて紹介する。ROOTS コーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
論文参考訳（メタデータ） (Mon, 27 Feb 2023 18:45:18 GMT)
大規模多言語コーパスの検索ツールの紹介
残念ながら日本語は対象となっていないデータセットではあるが、検索してみると対訳データなどの形でちょくちょく日本語のテキストが含まれていることが分かる。全体としてどの程度の量が入っているかやそれによって日本語を解釈する能力がどの程度あるのかは興味がある
リポジトリはRoots Search Tool – a Hugging Face Space by bigscience-data

BigSurvey: 学術論文の大規模データセット

Generating a Structured Summary of Numerous Academic Papers: Dataset and Method [20.9]
本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。我々は,7千件以上の調査論文から対象要約を収集し,その43万件の参考論文の要約を入力文書として活用する。数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 11:42:07 GMT)
7,000サーベイと430,000の参照論文からなるデータセット。Multi Documentな要約の貴重なデータで長文であることからも難しい対象だと思う。ベースライン実装ではBigBIRD-PEGASUやLEDを上回っている。
リポジトリはGitHub – StevenLau6/BigSurvey: A large-scale dataset for numerous academic papers summarization、ライセンスはOpen Data Commons Attribution License (ODC-By) v1.0 — Open Data Commons: legal tools for open data

LEXTREME

LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain [12.3]
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
論文参考訳（メタデータ） (Mon, 30 Jan 2023 18:05:08 GMT)
法律ドメインのマルチリンガルデータセット・ベンチマーク
（お前がやれという話ではあるが）この手のデータに日本語を差し込んでいかないと、という危機感がある。。。
データセット・リポジトリはjoelito/lextreme · Datasets at Hugging Face、GitHub – JoelNiklaus/LEXTREME: This repository provides scripts for evaluating NLP models on the LEXTREME benchmark, a set of diverse multilingual tasks in legal NLP

MusicLMとMusicCaps

MusicLM: Generating Music From Text [24.5]
テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
論文参考訳（メタデータ） (Thu, 26 Jan 2023 18:58:53 GMT)
テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0

HC3 (Human ChatGPT Comparison Corpus) dataset

How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection [8.1]
ChatGPTは、幅広い人間の質問に効果的に反応できる。人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。
論文参考訳（メタデータ） (Wed, 18 Jan 2023 15:23:25 GMT)
ChatGPTの回答と人の回答を比べるためのデータセット。データ件数は約４万件、言語は英語と中国語。短期間でよく作ったなと思う内容。RoBERTaを使えばChatGPTで作ったコンテンツの検出はできそうに見えるが、今後もそうかは謎。
本論には関係ないところで「金融や心理学分野ではChatGPTの回答の方が人の回答より役に立つと判定されたが医療分野では全く逆」、その理由が「医療分野でのChatGPTの回答は長く直接的でない傾向にあるため（と思われる）」という点が面白かった…それと「ChatGPT may fabricate facts.」もですよねーという感想
リポジトリはGitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥

MAQA: A Multimodal QA Benchmark for Negation

MAQA: A Multimodal QA Benchmark for Negation [12.1]
マルチモーダル学習は、事前学習された大規模言語モデル(LLM)の表現力の恩恵を受けることができる本稿では,AudioSetのラベル付き音楽ビデオから適応したマルチモーダル質問応答(QA)ベンチマークを提案する。モデルサイズに関わらず,マルチモーダル変圧器の標準的な微調整手法では,否定を正しく解釈することができないことを示す。
論文参考訳（メタデータ） (Mon, 9 Jan 2023 10:11:23 GMT)
現状のモデルが苦手とする否定表現に対応するためのタスク拡張手法の提案。テンプレートベースのタスク拡張に比べてPaLMを利用した場合のほうが性能が良く、大規模言語モデルを併用した戦略は良く機能するよう。
構築したデータセットは公開予定とのこと

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31