Institutional Books 1.0: A 242B token dataset from Harvard Library’s collections, refined for accuracy and usability 

The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text 

  • The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text [81.0]
    オープンライセンスの8テラバイトのテキストコレクションであるCommon Pile v0.1を収集、キュレート、リリースしています。 Common Pileは、研究論文、コード、書籍、百科事典、教育資料、オーディオ書き起こしなど、さまざまな分野にまたがる30のソースからのコンテンツで構成されている。 我々は,コモンパイルからテキストで20億のパラメータLSMをトレーニングすることで,我々の努力を検証する。
    論文  参考訳(メタデータ)   (Thu, 05 Jun 2025 16:21:30 GMT)
  • 「We release Common Pile v0.1, an 8TB corpus that—to our knowledge—constitutes the largest dataset built exclusively from openly licensed text. 」というクリーンなデータセット構築と競争力のあるモデル構築の検証。「Our results demonstrate that not only is the Common Pile the strongest dataset for pretraining under an open-license constraint, but also that it produces models comparable to those trained on an equivalent amount of unlicensed data. This positive result holds promise for future of open-license pretraining, especially if the research community invests in collecting larger quantities of openly licensed text data in the future.」とのこと。
  • 非常に意義のある取り組みだと思う、
  • データセットはCommon Pile v0.1 Raw Data – a common-pile Collection、リポジトリはGitHub – r-three/common-pile: Code for collecting, processing, and preparing datasets for the Common Pile

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging

OpenThoughts: Data Recipes for Reasoning Models

  • OpenThoughts: Data Recipes for Reasoning Models [215.2]
    OpenThoughtsプロジェクトは、推論モデルをトレーニングするためのオープンソースのデータセットを作成することだ。 OpenThoughts2-1Mデータセットは、公開推論データに基づいてトレーニングされた最初のモデルであるOpenThinker2-32Bに導かれた。 OpenThinker3-7Bモデル。
    論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 17:25:39 GMT)
  • LRM構築のためのオープンデータセット。データ拡張の方向性としても参考になる。
  • プロジェクトサイトはOpen Thoughts

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

  • ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.5]
    視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。 次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。 人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 17:59:27 GMT)
  • チャートQAなベンチマーク。Gemini-2.5-Pro、o4, o3, Calude 3.7, GPT-4.1もスコアが低い困難なタスク。
  • プロジェクトサイトはChartMuseum

TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials 

  • TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.1]
    リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。 我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。 我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
    論文  参考訳(メタデータ)   (Thu, 17 Apr 2025 06:15:56 GMT)
  • WEBチュートリアルを活用したデータセット構築とfine tuningによるエージェント開発
  • プロジェクトサイトはTongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

  • DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.3]
    DeepMath-103Kは、約103Kの数学的問題からなる新しい大規模データセットである。 各問題は、ルールベースのRLを可能にする検証可能な最終回答を含む。 我々は、DeepMath-103Kでトレーニングされたモデルが、挑戦的な数学的ベンチマークにおいて大幅に改善されることを実証した。
    論文  参考訳(メタデータ)   (Tue, 15 Apr 2025 17:59:51 GMT)
  • 「Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation.」という特徴を持つ数学ベンチマークデータセット
  • リポジトリはGitHub – zwhe99/DeepMath: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

REALM: A Dataset of Real-World LLM Use Cases

  • REALM: A Dataset of Real-World LLM Use Cases [69.6]
    REALMはRedditやニュース記事から収集された94,000 LLMのユースケースのデータセットである。 RealmはLLMの多様な応用とユーザの人口統計の2つの重要な側面を捉えている。 LLMアプリケーションを分類し、ユーザの職業が使用するアプリケーションの種類とどのように関連しているかを調査する。
    論文  参考訳(メタデータ)   (Mon, 24 Mar 2025 15:39:25 GMT)
  • 「REALM (Real-World Application of Large Language Model Dataset) Dataset」と珍しい視点のデータセット。
  • プロジェクトサイトはREALM Dataset Dashboard

CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?

  • CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers? [36.8]
    CLAIMCHECKは、NeurIPS 2023と2024のアノテートデータセットであり、OpenReviewから抽出されたレビューである。 CLAIMCHECKは、レビューの弱点に関するMLの専門家によって豊富な注釈が付けられており、論文は、それらが矛盾していると主張しており、また、識別された弱点の妥当性、客観性、タイプに関するきめ細かいラベルも主張している。 我々は,CLAIMCHECK が支援する3つのクレーム中心タスクについて,(1) 紛争のクレームに弱点を関連付けること,(2) 弱点のきめ細かいラベルを予測し,その特異性を高めるために弱点を書き換えること,(3) 根拠付き推論で論文のクレームを検証すること,の3つについて,LCM をベンチマークする。
    論文  参考訳(メタデータ)   (Thu, 27 Mar 2025 17:29:45 GMT)
  • 「This work has introduced CLAIMCHECK—a benchmark of reviewer-identified weaknesses in NeurIPS 2023 and 2024 submissions, richly annotated with descriptive labels by experts and grounded in the claims that they dispute in the reviewed papers. Further, we benchmark various LLMs on three novel tasks enabled by CLAIMCHECK—Weakness Labeling and Editing (WLE), Claim Association (CA), and Claim Verification (CV)—all aimed at assisting reviewers during the peer review process.」というベンチマークの提案。現在のLLMにとって難しいタスクとなっている。
  • リポジトリはhttps://github.com/JHU-CLSP/CLAIMCHECKとのこと

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation 

  • MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.5]
    MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。 我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 15:59:20 GMT)
  • 「MMLU-ProX extends the challenging MMLU-Pro benchmark to encompass 13 typologically diverse languages: English (EN), Chinese (ZH), Japanese (JA), Korean (KO), French (FR), German (DE), Spanish (ES), Portuguese (PT), Arabic (AR), Thai (TH), Hindi (HI), Bengali (BN), and Swahili (SW).」、「By carefully translating the same set of questions across all languages, MMLU-ProX facilitates direct comparison of model performance across linguistic boundaries while controlling for question difficulty.」というベンチマーク。多言語で評価可能なベンチマークを使うと言語間差異がよくわかる。
  • プロジェクトサイトはMMLU-ProX: A Multilingual Benchmark for Advanced LLM Evaluation