Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era

  • Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era [110.8]
    Real-IAD Varietyは、160の異なる対象カテゴリにわたる198,960の高解像度画像からなる、最大かつ最も多様なIADベンチマークである。 その多様性は、28の産業、24の素材タイプ、22のカラーバリエーションを包括的にカバーすることで保証されている。 この重要な分野のイノベーションを促進するために、Real-IAD Varietyが公開される。
    論文  参考訳(メタデータ)   (Sat, 01 Nov 2025 12:58:02 GMT)
  • Industrial anomaly detectionのための大規模データセット。
  • プロジェクトサイトはhttps://realiad4ad.github.io/Real-IAD-Variety

OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

  • OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation [39.3]
    Omni-1Mは、文書レイアウトの最初の100万スケールデータセットである。 2段階学習パラダイムを設計した0.5BモデルであるOmni-LLMを紹介する。 私たちのコード、モデル、データセットは公開されます。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 07:39:54 GMT)
  • 文書レイアウトのデータセットOmniLayout-1M及びOmniLayout-LLMの提案。
  • 「Our code, models, and dataset will be publicly released.」とのこと

FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset

  • FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset [55.7]
    我々は,大規模なUMIスタイルのマルチモーダルデモデータセットであるFastUMI-100Kを提案する。 FastUMI-100Kは、現実世界のロボットデモデータの多様な要求を満たすために、よりスケーラブルで柔軟性があり、適応可能なソリューションを提供する。 我々のデータセットは、エンドエフェクタ状態、多視点手首装着魚眼画像、テキストアノテーションを含むマルチモーダルストリームを統合している。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 09:57:25 GMT)
  • 「Utilizing the FastUMI data collection system [21], we in- tegrated single-arm and dual-arm configurations with adapt- able universal finger sleeves to conduct large-scale data collection. In this paper, we introduce the large-scale UMI- style multimodal dataset—FastUMI-100K, which incorpo- rates the dataset of the pioneering work FastUMI and totally comprises over 100,000 demonstration trajectories, collected using both single-arm and dual-arm grippers on the FastUMI platform, equivalent to 600 hours of interactive data.」というデータセット。
  • リポジトリはGitHub – MrKeee/FastUMI-100K

CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset 

  • CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset [99.1]
    CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。 CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
    論文  参考訳(メタデータ)   (Wed, 17 Sep 2025 16:45:22 GMT)
  • リポジトリはbyan/cs-fleurs · Datasets at Hugging Face

A Survey on Large Language Model Benchmarks

  • A Survey on Large Language Model Benchmarks [45.0]
    一般的な能力ベンチマークは、中核言語学、知識、推論などの側面をカバーする。 ドメイン固有のベンチマークは、自然科学、人文科学、社会科学、エンジニアリング技術といった分野に焦点を当てている。 ターゲット固有のベンチマークは、リスク、信頼性、エージェントなどに注意を払う。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 08:43:35 GMT)
  • 「We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain- specific, and target-specific.」とベンチマークのサーベイ
  • LLMの動きを広範に知るため様々なベンチマークが作られており、これら調査は非常にありがたい。

MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

  • MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning [24.7]
    1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。 私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。 実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
    論文  参考訳(メタデータ)   (Tue, 22 Jul 2025 17:59:03 GMT)
  • 「We present TEXTBOOKREASONING and MEGASCIENCE, two datasets that advance the frontier in the scientific domain by enabling base models to outperform official instruct models on scientific tasks when fine-tuned with our data.」
  • リポジトリはGAIR-NLP/MegaScience: MegaScience: Pushing the Frontiers of Post-Training Datasets for Science ReasoningMegaScience (MegaScience)

PPJudge: Towards Human-Aligned Assessment of Artistic Painting Process 

  • PPJudge: Towards Human-Aligned Assessment of Artistic Painting Process [15.4]
    本研究では,絵画プロセスの人為的アセスメントのための新しい枠組みを提案する。 具体的には、実画像と合成画像からなる最初の大規模データセットであるペイントプロセスアセスメントデータセット(PPAD)を紹介する。 また、時間的に認識された位置符号化を付加したトランスフォーマーベースモデルPPJudgeを提案する。
    論文  参考訳(メタデータ)   (Sat, 12 Jul 2025 10:30:44 GMT)
  • 「we introduce a dataset specifically designed for painting process assessment: the Painting Process Assessment Dataset (PPAD). It consists of approximately 15,000 real paintings and 10,000 synthetic paintings, each annotated by domain experts.」というデータセットと対応するモデルの提案。

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset 

  • Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [112.5]
    4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。 このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。 そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
    論文  参考訳(メタデータ)   (Fri, 27 Jun 2025 18:09:49 GMT)
  • 「we introduce the Seamless Interaction Dataset, a large-scale collection of over 4,000 hours of face-to-face interaction footage from over 4,000 participants in diverse contexts. This dataset enables the development of AI technologies that understand dyadic embodied dynamics, unlocking breakthroughs in virtual agents, telepresence experiences, and multimodal content analysis tools.」というデータセット。
  • リポジトリはGitHub – facebookresearch/seamless_interaction: Foundation Models and Data for Human-Human and Human-AI interactions.

FineWeb2: One Pipeline to Scale Them All — Adapting Pre-Training Data Processing to Every Language 

  • FineWeb2: One Pipeline to Scale Them All — Adapting Pre-Training Data Processing to Every Language [48.8]
    我々は、FineWebをベースにした、新しいトレーニング済みデータセットキュレーションパイプラインを導入する。 我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。 パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張し、新たに20テラバイト(50億ドキュメント)のマルチリンガルデータセットであるFinWeb2を生成しました。
    論文  参考訳(メタデータ)   (Thu, 26 Jun 2025 01:01:47 GMT)
  • 大規模、マルチリンガル、高品質なデータセットの提案。重複データへの対応やフィルタリングによって他のデータセットよりも効率的な学習が可能とのこと
  • リポジトリはGitHub – huggingface/fineweb-2、データセットはHuggingFaceFW/fineweb-2 · Datasets at Hugging Face

Institutional Books 1.0: A 242B token dataset from Harvard Library’s collections, refined for accuracy and usability