コンテンツへスキップ
- OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.4]
クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。 結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 08:29:50 GMT)
- 「we present OS-Oracle, a comprehensive framework for GUI critic models. By introducing a scalable cross-platform data pipeline, we systematically synthesize both positive and negative samples that capture di- verse GUI failure modes. Together with a two-stage training recipe combining supervised fine-tuning and consistency- preserving GRPO, our approach enables robust and generalizable critic learning across Mobile, Web, and Desktop environments. Extensive experiments demonstrate that our critic model not only achieves impressive performance on the OS-Critic Bench but also effectively enhances the reliability and task success of native GUI agents.」とのこと。GUI Agentが盛り上がる中重要なデータセット、モデル、ベンチマークだと思う。
- リポジトリはGitHub – numbmelon/OS-Oracle、OS-Copilot/OS-Critic-Bench · Datasets at Hugging Face
- A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [77.0]
LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。 これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。 LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 18:59:27 GMT)
- 「We present LongShOTBench, a comprehensive diagnostic benchmark for evaluating MLLMs on long-form, multi- modal video understanding, integrating vision, speech, and audio across hour-long contexts. Its open-ended, intent- driven questions and rubric-based evaluation provide fine- grained, interpretable diagnostics across perception, reason- ing, and agentic tool-use tasks.」というベンチマーク。フロンティアモデルでも解くのが難しいのが興味深いのと、うまくパイプラインを構成しAgenticに使うと小規模モデルでも一定対応できるという点も興味深い。
- リポジトリは、GitHub – mbzuai-oryx/LongShOT: A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
- GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation [115.5]
ベンチマークドリフトは、最も人気のあるT2Iベンチマークの一つであるGenEvalにとって重要な問題であることを示す。 我々は新しいベンチマークGenEval 2を導入し、原始的な視覚概念のカバレッジを改善し、より高度な構成性を実現した。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 18:26:56 GMT)
- 「GenEval was well-aligned with human judgment at the time of its release, it has drifted far from human judgment over time—resulting in an absolute error of as much as 17.7% for current models. This level of drift strongly suggests that GenEval has been saturated for some time, as we verify via a large-scale human study. To help fill this benchmarking gap, we introduce a new benchmark, GenEval 2, with improved coverage of primitive visual concepts and higher degrees of compositionality, which we show is more challenging for current models.」とGenEvalの新たなバージョンの提案。
- リポジトリはGitHub – facebookresearch/GenEval2: Evaluation codes and data for GenEval2
- SpatialTree: How Spatial Abilities Branch Out in MLLMs [109.3]
低レベル知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェント能力(L4)の4つのレベルに空間能力を整理する認知科学に着想を得た階層を導入する。 複雑な推論には役立ちますが、直感的な知覚を損ないます。 本稿では,不必要な熟考を抑制するシンプルな自己思考戦略を提案する。
論文 参考訳(メタデータ) (Tue, 23 Dec 2025 18:59:46 GMT)
- 「Spatial abilities refer to the capacity to perceive, understand, reason about, and interact with 2D and 3D space, a long-standing topic in cognitive science [13, 45, 48]. In multimodal large language models (MLLMs), these abilities form the cornerstone of Spatial Intelligence (SI), yet remain challenging to study systematically due to their inherent complexity and broad scope [31, 63].」とのことでSpatial abilitiesを測るベンチマークを構築している。4レベルは下記の通り。
- L1 Perception: This level focuses on native perception of space, capturing raw geometric and physical attributes such as size, distance, and motion, without relying on language or symbolic reasoning.
- L2 Mental Mapping: This level maps spatial perception to language, grounding spatial concepts in linguistic semantics and forming language-structured spatial memory.
- L3 Mental Simulation: This level supports internal reasoning about space, enabling mental simulation, including causal reasoning about dynamics, relational and geometric problem solving, and sequential planning for actions and navigation.
- L4 Spatial Agent: This level executes actions in space, integrating perception, language, and reasoning to interact with the environment, interpret feedback, and complete long-horizon spatial tasks.
- リポジトリはSpatialTree – How Spatial Abilities Branch Out in MLLMs、リーダーボードのモデル群が若干古い。。
- MMGR: Multi-Modal Generative Reasoning [97.4]
本稿では,5つの推論能力に基づく基本的評価フレームワークMMGRを紹介する。 MMGRは、抽象推論(Abstract Reasoning)、体操ナビゲーション(Embodied Navigation)、物理コモンセンス(Physical Commonsense)の3つの領域にわたる生成的推論を評価する。 主要映像モデル(Veo-3, Sora-2, Wan-2.2)と画像モデル(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)をベンチマークする。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 18:42:37 GMT)
- 「We argue that for video generation to evolve from mere image animation to genuine world modeling (Ha & Schmidhuber, 2018; LeCun, 2022), models must acquire foundational reasoning capabilities akin to human intuitive physics and cognition. Moving beyond superficial fidelity (Huang et al , 2024; Liu et al , 2024b), we propose a formal evaluation framework asking: Can a video model reason about the physical and logical constraints of the content it generates? Drawing on theories of core knowledge and cognitive development (Spelke & Kinzler, 2007; Lake et al , 2017), we posit that robust world simulation rests on five complementary pillars of reasoning:」とのこと。5つは下記の通り。
- Physical Reasoning
- Logical Reasoning
- 3D Spatial Reasoning
- 2D Spatial Reasoning
- Temporal Reasoning
- リポジトリはZefan-Cai/MMGR · GitHub
- FrontierCS: Evolving Challenges for Evolving Intelligence [174.8]
コンピュータ科学の様々な領域にまたがる156のオープンエンド問題のベンチマークであるFrontierCSを紹介する。 各問題に対して、専門家の参照ソリューションと自動評価器を提供する。 私たちは、アルゴリズムと研究のトラックに関して、フロンティア推論モデルが人間の専門家よりずっと遅れていることに気付きました。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 18:52:45 GMT)
- 「we introduce FrontierCS, a coding benchmark that evaluates LLMs on solving open- ended computer science problems, where no known closed-form or deterministic optimal solution exists in practice. 」というベンチマーク。「Empirically, we find that even the strongest frontier reasoning models remain far behind human experts on both the algorithmic and research tracks of FrontierCS. Simply scaling up context length or reasoning budgets yields diminishing returns on the hardest problems, and models frequently converge to locally workable but clearly suboptimal algorithms.」とのこと。
- プロジェクトサイトはFrontierCS
- Step-DeepResearch Technical Report [90.5]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。 我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。 中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (Tue, 23 Dec 2025 16:32:27 GMT)
- StepFunによるディープリサーチエージェントと評価ベンチマークの提案。「Experimental results demonstrate that Step-DeepResearch, with only 32B parameters, achieves a high score of 61.4% on the Scale AI Research Rubrics. In expert human evaluations on ADR-Bench, its Elo score significantly outperforms comparable models and rivals state-of-the-art closed-source models such as OpenAI DeepResearch and Gemini DeepResearch.」と高性能を主張。実行にはAPI接続が必要でこれもclosedでは?と思わなくもない。。
- リポジトリはGitHub – stepfun-ai/StepDeepResearch: Step-DeepResearch
- The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality [70.5]
FACTS Leaderboardは、実際に正確なテキストを生成する言語モデルの能力を総合的に評価するオンラインのリーダーボードスイートである。 このスイートは、4つの異なるサブリーダーボード上でのモデルのパフォーマンスを集約することで、事実性の総合的な尺度を提供する。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 16:35:14 GMT)
- 「The FACTS Leaderboard introduced here is designed to address this need by providing a holistic evaluation suite. It aggregates performance across four specialized sub-leaderboards, each targeting a distinct dimension of factuality. 」というベンチマーク
- FACTS Multimodal tests a model’s ability to combine visual grounding with world knowledge to answer questions about an image.
- FACTS Parametric measures the model’s ability to use its internal knowledge accurately in factoid question use-cases.
- FACTS Search evaluates the practical and increasingly common use case of generating factual responses by interacting with a search tool.
- FACTS Grounding v2 is an updated version of FACTS Grounding, which tests grounding to a given document, with improved judges.
- プロジェクトサイトはFACTS Benchmark Suite Leaderboard | Kaggle、フロンティアなモデルはやはり強い。Gemini 3 Pro previewのSearchはさすが。最新モデルでの検証結果が知りたいところ。
- WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.7]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。 モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。 さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 18:59:58 GMT)
- 「We introduce WorldLens, a full-spectrum benchmark evaluating how well a model builds, understands, and behaves within its generated world. It spans five aspects – Generation, Reconstruction, Action-Following, Downstream Task, and Human Preference – jointly covering visual realism, geometric consistency, physical plausibility, and functional reliability.」というベンチマーク。
- リポジトリはGitHub – worldbench/WorldLens: 🌐 WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World、プロジェクトサイトはWorldLens: Full-Spectrum Evaluations of Driving World Models in Real World
- How Far Are We from Genuinely Useful Deep Research Agents? [48.6]
Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。 レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。 我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 17:58:59 GMT)
- 「Fine-grained DEep- Research bench (FINDER), a fine-grained benchmark designed to evaluate DRAs in a more comprehensive manner. Unlike existing benchmarks, DEFT is built upon 100 expert-curated research tasks with 419 detailed check- list items that guide the structure, analytical depth, and citation integrity of generated reports.」というベンチマークの提案。
- リポジトリはGitHub – OPPO-PersonalAI/FINDER_DEFT: Official implementation for paper “How Far Are We from Genuinely Useful Deep Research Agents?”