データセット – ページ 2 – arXiv最新論文の紹介

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.3]
DeepMath-103Kは、約103Kの数学的問題からなる新しい大規模データセットである。各問題は、ルールベースのRLを可能にする検証可能な最終回答を含む。我々は、DeepMath-103Kでトレーニングされたモデルが、挑戦的な数学的ベンチマークにおいて大幅に改善されることを実証した。
論文参考訳（メタデータ） (Tue, 15 Apr 2025 17:59:51 GMT)
「Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation.」という特徴を持つ数学ベンチマークデータセット
リポジトリはGitHub – zwhe99/DeepMath: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

REALM: A Dataset of Real-World LLM Use Cases

REALM: A Dataset of Real-World LLM Use Cases [69.6]
REALMはRedditやニュース記事から収集された94,000 LLMのユースケースのデータセットである。 RealmはLLMの多様な応用とユーザの人口統計の2つの重要な側面を捉えている。 LLMアプリケーションを分類し、ユーザの職業が使用するアプリケーションの種類とどのように関連しているかを調査する。
論文参考訳（メタデータ） (Mon, 24 Mar 2025 15:39:25 GMT)
「REALM (Real-World Application of Large Language Model Dataset) Dataset」と珍しい視点のデータセット。
プロジェクトサイトはREALM Dataset Dashboard

CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?

CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers? [36.8]
CLAIMCHECKは、NeurIPS 2023と2024のアノテートデータセットであり、OpenReviewから抽出されたレビューである。 CLAIMCHECKは、レビューの弱点に関するMLの専門家によって豊富な注釈が付けられており、論文は、それらが矛盾していると主張しており、また、識別された弱点の妥当性、客観性、タイプに関するきめ細かいラベルも主張している。我々は,CLAIMCHECK が支援する3つのクレーム中心タスクについて,(1) 紛争のクレームに弱点を関連付けること,(2) 弱点のきめ細かいラベルを予測し,その特異性を高めるために弱点を書き換えること,(3) 根拠付き推論で論文のクレームを検証すること,の3つについて,LCM をベンチマークする。
論文参考訳（メタデータ） (Thu, 27 Mar 2025 17:29:45 GMT)
「This work has introduced CLAIMCHECK—a benchmark of reviewer-identified weaknesses in NeurIPS 2023 and 2024 submissions, richly annotated with descriptive labels by experts and grounded in the claims that they dispute in the reviewed papers. Further, we benchmark various LLMs on three novel tasks enabled by CLAIMCHECK—Weakness Labeling and Editing (WLE), Claim Association (CA), and Claim Verification (CV)—all aimed at assisting reviewers during the peer review process.」というベンチマークの提案。現在のLLMにとって難しいタスクとなっている。
リポジトリはhttps://github.com/JHU-CLSP/CLAIMCHECKとのこと

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.5]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (Thu, 13 Mar 2025 15:59:20 GMT)
「MMLU-ProX extends the challenging MMLU-Pro benchmark to encompass 13 typologically diverse languages: English (EN), Chinese (ZH), Japanese (JA), Korean (KO), French (FR), German (DE), Spanish (ES), Portuguese (PT), Arabic (AR), Thai (TH), Hindi (HI), Bengali (BN), and Swahili (SW).」、「By carefully translating the same set of questions across all languages, MMLU-ProX facilitates direct comparison of model performance across linguistic boundaries while controlling for question difﬁculty.」というベンチマーク。多言語で評価可能なベンチマークを使うと言語間差異がよくわかる。
プロジェクトサイトはMMLU-ProX: A Multilingual Benchmark for Advanced LLM Evaluation

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies [21.4]
高品質な多言語単言語コーパスと並列コーパスのコレクションであるHPLT v2を提案する。データのモノリンガル部分は193言語をカバーする8Tトークンを含み、並列データは51言語をカバーする380万の文ペアを含む。
論文参考訳（メタデータ） (Thu, 13 Mar 2025 11:24:09 GMT)
「The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages.」という大規模データセットの提案。「We release HPLT v2 under the permissive Creative Commons Zero (CC0) license and provide the code to replicate our pipeline.」とライセンスはCC zero
プロジェクトサイトはHPLT – High Performance Language Technologies、リポジトリはGitHub – hplt-project/HPLT-textpipes: Step-by-step schematic description of data processing in HPLT

Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions

Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions [39.2]
検索・レコメンデーション(S&R)を伴う複雑なシステムにおけるユーザエクスペリエンス向上の課題は、学術と産業の両方から大きな注目を集めている。本稿では,新しいマルチモーダル情報検索データセット,すなわちQilinを提案する。データセットはXiaohongshuから収集されている。Xiaohongshuは3億人の月間アクティブユーザーがいて、平均的な検索浸透率は70%を超えている。
論文参考訳（メタデータ） (Sat, 01 Mar 2025 14:15:00 GMT)
マルチモーダルなsearch and recommendationを対象としたデータセット
リポジトリはGitHub – RED-Search/Qilin: Resources and code for the Qilin dataset.

Towards Best Practices for Open Datasets for LLM Training

Towards Best Practices for Open Datasets for LLM Training [21.4]
多くのAI企業は、著作権所有者の許可なく、データ上で大きな言語モデル(LLM)をトレーニングしています。創造的なプロデューサーは、いくつかの著名な著作権訴訟を引き起こした。データ情報を制限するこの傾向は、透明性、説明責任、革新を妨げることによって害をもたらす。
論文参考訳（メタデータ） (Tue, 14 Jan 2025 17:18:05 GMT)
学習等に使用するデータセットを選ぶベストプラクティスの整理、「The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous.」とはあるが日本でもとても大事な内容。

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
論文参考訳（メタデータ） (Tue, 24 Dec 2024 10:07:51 GMT)
（o1自体は利用していないと言われているが）o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
リポジトリはGitHub – HJYao00/Mulberry

StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs

StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs [78.8]
StructTestは、構造化されたアウトプットを生成する能力に基づいて、大きな言語モデルを評価する新しいベンチマークである。 StructTestが一般的な推論能力のよいプロキシであることを示す。
論文参考訳（メタデータ） (Mon, 23 Dec 2024 22:08:40 GMT)
構造化出力のベンチマーク、「programmatically verifiable benchmark for evaluating instructionfollowing capabilities through structured outputs.」
現時点でデータは公開されていない・・・？

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating [40.4]
大規模視覚言語モデル(LVLM)は文書理解能力を大幅に改善した。既存の文書理解ベンチマークは少数のページしか処理できない。半自動構築パイプラインを開発し,2,325の高品質な質問応答ペアを収集し,33,000ページ以上の文書を網羅する。
論文参考訳（メタデータ） (Tue, 24 Dec 2024 13:39:32 GMT)
文章理解ベンチマークの提案、非常に大規模なデータセット。分析が詳細に行われており、PymuPDFとDocMindの差も面白かった。GPT-4oにおいてはImage inputよりDocmindを通した方がスコアが高そう。
リポジトリはGitHub – dengc2023/LongDocURL

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31