Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging

OpenThoughts: Data Recipes for Reasoning Models

  • OpenThoughts: Data Recipes for Reasoning Models [215.2]
    OpenThoughtsプロジェクトは、推論モデルをトレーニングするためのオープンソースのデータセットを作成することだ。 OpenThoughts2-1Mデータセットは、公開推論データに基づいてトレーニングされた最初のモデルであるOpenThinker2-32Bに導かれた。 OpenThinker3-7Bモデル。
    論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 17:25:39 GMT)
  • LRM構築のためのオープンデータセット。データ拡張の方向性としても参考になる。
  • プロジェクトサイトはOpen Thoughts

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

  • ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.5]
    視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。 次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。 人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 17:59:27 GMT)
  • チャートQAなベンチマーク。Gemini-2.5-Pro、o4, o3, Calude 3.7, GPT-4.1もスコアが低い困難なタスク。
  • プロジェクトサイトはChartMuseum

TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials 

  • TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.1]
    リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。 我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。 我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
    論文  参考訳(メタデータ)   (Thu, 17 Apr 2025 06:15:56 GMT)
  • WEBチュートリアルを活用したデータセット構築とfine tuningによるエージェント開発
  • プロジェクトサイトはTongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

  • DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.3]
    DeepMath-103Kは、約103Kの数学的問題からなる新しい大規模データセットである。 各問題は、ルールベースのRLを可能にする検証可能な最終回答を含む。 我々は、DeepMath-103Kでトレーニングされたモデルが、挑戦的な数学的ベンチマークにおいて大幅に改善されることを実証した。
    論文  参考訳(メタデータ)   (Tue, 15 Apr 2025 17:59:51 GMT)
  • 「Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation.」という特徴を持つ数学ベンチマークデータセット
  • リポジトリはGitHub – zwhe99/DeepMath: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

REALM: A Dataset of Real-World LLM Use Cases

  • REALM: A Dataset of Real-World LLM Use Cases [69.6]
    REALMはRedditやニュース記事から収集された94,000 LLMのユースケースのデータセットである。 RealmはLLMの多様な応用とユーザの人口統計の2つの重要な側面を捉えている。 LLMアプリケーションを分類し、ユーザの職業が使用するアプリケーションの種類とどのように関連しているかを調査する。
    論文  参考訳(メタデータ)   (Mon, 24 Mar 2025 15:39:25 GMT)
  • 「REALM (Real-World Application of Large Language Model Dataset) Dataset」と珍しい視点のデータセット。
  • プロジェクトサイトはREALM Dataset Dashboard

CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?

  • CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers? [36.8]
    CLAIMCHECKは、NeurIPS 2023と2024のアノテートデータセットであり、OpenReviewから抽出されたレビューである。 CLAIMCHECKは、レビューの弱点に関するMLの専門家によって豊富な注釈が付けられており、論文は、それらが矛盾していると主張しており、また、識別された弱点の妥当性、客観性、タイプに関するきめ細かいラベルも主張している。 我々は,CLAIMCHECK が支援する3つのクレーム中心タスクについて,(1) 紛争のクレームに弱点を関連付けること,(2) 弱点のきめ細かいラベルを予測し,その特異性を高めるために弱点を書き換えること,(3) 根拠付き推論で論文のクレームを検証すること,の3つについて,LCM をベンチマークする。
    論文  参考訳(メタデータ)   (Thu, 27 Mar 2025 17:29:45 GMT)
  • 「This work has introduced CLAIMCHECK—a benchmark of reviewer-identified weaknesses in NeurIPS 2023 and 2024 submissions, richly annotated with descriptive labels by experts and grounded in the claims that they dispute in the reviewed papers. Further, we benchmark various LLMs on three novel tasks enabled by CLAIMCHECK—Weakness Labeling and Editing (WLE), Claim Association (CA), and Claim Verification (CV)—all aimed at assisting reviewers during the peer review process.」というベンチマークの提案。現在のLLMにとって難しいタスクとなっている。
  • リポジトリはhttps://github.com/JHU-CLSP/CLAIMCHECKとのこと

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation 

  • MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.5]
    MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。 我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 15:59:20 GMT)
  • 「MMLU-ProX extends the challenging MMLU-Pro benchmark to encompass 13 typologically diverse languages: English (EN), Chinese (ZH), Japanese (JA), Korean (KO), French (FR), German (DE), Spanish (ES), Portuguese (PT), Arabic (AR), Thai (TH), Hindi (HI), Bengali (BN), and Swahili (SW).」、「By carefully translating the same set of questions across all languages, MMLU-ProX facilitates direct comparison of model performance across linguistic boundaries while controlling for question difficulty.」というベンチマーク。多言語で評価可能なベンチマークを使うと言語間差異がよくわかる。
  • プロジェクトサイトはMMLU-ProX: A Multilingual Benchmark for Advanced LLM Evaluation

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies

  • An Expanded Massive Multilingual Dataset for High-Performance Language Technologies [21.4]
    高品質な多言語単言語コーパスと並列コーパスのコレクションであるHPLT v2を提案する。 データのモノリンガル部分は193言語をカバーする8Tトークンを含み、並列データは51言語をカバーする380万の文ペアを含む。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 11:24:09 GMT)
  • 「The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages.」という大規模データセットの提案。「We release HPLT v2 under the permissive Creative Commons Zero (CC0) license and provide the code to replicate our pipeline.」とライセンスはCC zero
  • プロジェクトサイトはHPLT – High Performance Language Technologies、リポジトリはGitHub – hplt-project/HPLT-textpipes: Step-by-step schematic description of data processing in HPLT

Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions

  • Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions [39.2]
    検索・レコメンデーション(S&R)を伴う複雑なシステムにおけるユーザエクスペリエンス向上の課題は、学術と産業の両方から大きな注目を集めている。 本稿では,新しいマルチモーダル情報検索データセット,すなわちQilinを提案する。 データセットはXiaohongshuから収集されている。Xiaohongshuは3億人の月間アクティブユーザーがいて、平均的な検索浸透率は70%を超えている。
    論文  参考訳(メタデータ)   (Sat, 01 Mar 2025 14:15:00 GMT)
  • マルチモーダルなsearch and recommendationを対象としたデータセット
  • リポジトリはGitHub – RED-Search/Qilin: Resources and code for the Qilin dataset.