WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing 

  • WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing [103.7]
    WeEditは、スケーラブルなデータ構築パイプラインと2つのベンチマーク、2段階のトレーニング戦略を含む、システマティックなソリューションである。 具体的には、多様な編集操作と15言語をカバーする330Kのトレーニングペアを生成するHTMLベースの新しい自動編集パイプラインを提案する。 アルゴリズム面では、グリフ誘導による微調整を用いて、空間的および内容的事前の明示を注入し、次いで、命令の順守、テキストの明瞭さ、背景の保存と、生成を整合させる多目的強化学習ステージを用いる。
    論文  参考訳(メタデータ)   (Thu, 12 Mar 2026 06:25:09 GMT)
  • テキストによる画像編集
  • プロジェクトサイトはWeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

SumTablets: A Transliteration Dataset of Sumerian Tablets 

  • SumTablets: A Transliteration Dataset of Sumerian Tablets [28.7]
    SumTablets は Unicode 表現を 91,606 で組み合わせたデータセットである。 私たちは、Hugging FaceデータセットとしてSumTabletsをリリースし、GitHub経由でオープンソースのデータ準備コードを作成しました。 我々の微調整言語モデルは平均文字レベルFスコア(chrF)97.55を達成する。
    論文  参考訳(メタデータ)   (Wed, 25 Feb 2026 18:50:42 GMT)
  • 「the absence of a comprehensive, accessible dataset pairing transliterations with a digital representation of the tablet’s cuneiform glyphs has prevented the application of modern Natural Language Processing (NLP) methods to the task of Sumerian transliteration. To address this gap, we present SumTablets, a dataset pairing Unicode representations of 91,606 Sumerian cuneiform tablets (totaling 6,970,407 glyphs) with the associated transliterations published by Oracc.」というデータセット。
  • リポジトリはGitHub – colesimmons/SumTablets: SumTablets is a dataset designed for training Sumerian transliteration models.、データセットはcolesimmons/SumTablets · Datasets at Hugging Face

A Very Big Video Reasoning Suite

  • A Very Big Video Reasoning Suite [155.7]
    ビデオモデルの急速な普及は視覚的品質を捉えており、その推論能力は未解明のままである。 Very Big Video Reasoning(VBVR)データセットは、200のキュレートされた推論タスクにまたがる、前例のない大規模なリソースである。 VBVR-Benchは、ルールベースのヒューマンアライメントスコアラーによるモデルベースの判断を超えて、検証可能な評価フレームワークである。
    論文  参考訳(メタデータ)   (Tue, 24 Feb 2026 17:59:15 GMT)
  • 「we present the VBVR suite, centered on an unprecedentedly large-scale and continually growing dataset for video reasoning, VBVR-Dataset, together with a verifiable, human-aligned evaluation toolkit, VBVR-Bench.」とのこと、とても規模が大きい。ベンチマークとしては「Proprietary models perform better overall, led by Sora 2 (0.546) and Veo 3.1 (0.480), particularly in Abstraction and Transformation categories. Fine-tuning Wan2.2-I2V-A14B on VBVR-Dataset yields VBVR-Wan2.2, which achieves a new state-of-the-art with an overall score of 0.685, representing an 84.6% relative improvement over its base model. 」とfine tuningの効果は大きいよう。
  • プロジェクトサイトはA Very Big Video Reasoning Suite

OnCoCo 1.0: A Public Dataset for Fine-Grained Message Classification in Online Counseling Conversations 

  • OnCoCo 1.0: A Public Dataset for Fine-Grained Message Classification in Online Counseling Conversations [35.4]
    OnCoCo 1.0は、オンラインカウンセリングにおけるきめ細かいメッセージ分類のための新しいパブリックデータセットである。 これは、精神社会的オンラインカウンセリング会話の自動分析を改善するために設計された、新たな統合されたカテゴリシステムに基づいている。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 16:18:20 GMT)
  • 「Contribution With this publication we introduce OnCoCo 1.0 (Online Counseling Conversations), a new bi-lingual dataset (German and English) for rich content analysis in psychosocial online coun- seling. Our dataset extends current conversational corpora by providing a detailed and ethically cu- rated dataset for bilingual counseling contexts.」というオンラインカウンセリングのデータセット。かなり珍しいように思う。
  • リポジトリはGitHub – th-nuernberg/oncoco_v1_dataset: OnCoCo 1.0 Dataset for Classification of Psycho-social Counseling Messages

Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era

  • Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era [110.8]
    Real-IAD Varietyは、160の異なる対象カテゴリにわたる198,960の高解像度画像からなる、最大かつ最も多様なIADベンチマークである。 その多様性は、28の産業、24の素材タイプ、22のカラーバリエーションを包括的にカバーすることで保証されている。 この重要な分野のイノベーションを促進するために、Real-IAD Varietyが公開される。
    論文  参考訳(メタデータ)   (Sat, 01 Nov 2025 12:58:02 GMT)
  • Industrial anomaly detectionのための大規模データセット。
  • プロジェクトサイトはhttps://realiad4ad.github.io/Real-IAD-Variety

OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

  • OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation [39.3]
    Omni-1Mは、文書レイアウトの最初の100万スケールデータセットである。 2段階学習パラダイムを設計した0.5BモデルであるOmni-LLMを紹介する。 私たちのコード、モデル、データセットは公開されます。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 07:39:54 GMT)
  • 文書レイアウトのデータセットOmniLayout-1M及びOmniLayout-LLMの提案。
  • 「Our code, models, and dataset will be publicly released.」とのこと

FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset

  • FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset [55.7]
    我々は,大規模なUMIスタイルのマルチモーダルデモデータセットであるFastUMI-100Kを提案する。 FastUMI-100Kは、現実世界のロボットデモデータの多様な要求を満たすために、よりスケーラブルで柔軟性があり、適応可能なソリューションを提供する。 我々のデータセットは、エンドエフェクタ状態、多視点手首装着魚眼画像、テキストアノテーションを含むマルチモーダルストリームを統合している。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 09:57:25 GMT)
  • 「Utilizing the FastUMI data collection system [21], we in- tegrated single-arm and dual-arm configurations with adapt- able universal finger sleeves to conduct large-scale data collection. In this paper, we introduce the large-scale UMI- style multimodal dataset—FastUMI-100K, which incorpo- rates the dataset of the pioneering work FastUMI and totally comprises over 100,000 demonstration trajectories, collected using both single-arm and dual-arm grippers on the FastUMI platform, equivalent to 600 hours of interactive data.」というデータセット。
  • リポジトリはGitHub – MrKeee/FastUMI-100K

CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset 

  • CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset [99.1]
    CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。 CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
    論文  参考訳(メタデータ)   (Wed, 17 Sep 2025 16:45:22 GMT)
  • リポジトリはbyan/cs-fleurs · Datasets at Hugging Face

A Survey on Large Language Model Benchmarks

  • A Survey on Large Language Model Benchmarks [45.0]
    一般的な能力ベンチマークは、中核言語学、知識、推論などの側面をカバーする。 ドメイン固有のベンチマークは、自然科学、人文科学、社会科学、エンジニアリング技術といった分野に焦点を当てている。 ターゲット固有のベンチマークは、リスク、信頼性、エージェントなどに注意を払う。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 08:43:35 GMT)
  • 「We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain- specific, and target-specific.」とベンチマークのサーベイ
  • LLMの動きを広範に知るため様々なベンチマークが作られており、これら調査は非常にありがたい。

MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

  • MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning [24.7]
    1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。 私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。 実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
    論文  参考訳(メタデータ)   (Tue, 22 Jul 2025 17:59:03 GMT)
  • 「We present TEXTBOOKREASONING and MEGASCIENCE, two datasets that advance the frontier in the scientific domain by enabling base models to outperform official instruct models on scientific tasks when fine-tuned with our data.」
  • リポジトリはGAIR-NLP/MegaScience: MegaScience: Pushing the Frontiers of Post-Training Datasets for Science ReasoningMegaScience (MegaScience)