コンテンツへスキップ
- EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs [53.4]
EventBenchは8つのタスクメトリクスと大規模なイベントストリームデータセットを提供するベンチマークである。 我々は、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、EventGPTのようなイベントベースのMLLMを評価した。
論文 参考訳(メタデータ) (Sun, 23 Nov 2025 13:39:01 GMT)
- MLLMのイベントに対する評価(understanding (i.e., detailed understanding), recognition (i.e., action recognition, gesture recognition, and event OCR)など)ベンチマーク。
- リポジトリはEventBench
- InnoGym: Benchmarking the Innovation Potential of AI Agents [74.6]
InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。 InnoGymは2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 16:03:04 GMT)
- 「InnoGym consists of two complementary components: iBench, a benchmark designed to evaluate innovation capability, and iGym, a unified development and execution environment. iBench covers 18 carefully curated tasks drawn from real-world engineering and theoretical problems. We focus only on Improvable Tasks, which leave clear room for improvement in both solution quality and methodology.」というAIエージェントがイノベーションを起こせるかを計測しようとするベンチマーク
- リポジトリはhttps://github.com/zjunlp/igym
- On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.2]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。 本研究では,LLMの生成能力と評価能力の関係について検討した。 モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 18:33:24 GMT)
- generation-evaluation consistency (GE-consistency)に注目した評価ベンチマークの提案。
- リポジトリはGitHub – yale-nlp/AlignEval
- ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.5]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。 主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。 先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 06:27:38 GMT)
- 「We release a new, highly challenging evaluation benchmark containing approximately 800 expert-created original problems. The benchmark focuses on multidisciplinary scientific reasoning, with a target difficulty set to a pass rate of less than 20% for current state-of-the- art models, to effectively measure the true capabilities of frontier models.」と非常に難しいベンチマーク
- リポジトリはGitHub – open-compass/ATLAS: ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning、Gemini 3 Proの結果が気になるところ。
- SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.9]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。 私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。 我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 03:41:06 GMT)
- LRMを対象とした安全性ベンチマーク評価。
- 「For small models (e g , Qwen-3- 0.6B), Thinking increases risk, consistent with prior observations that reasoning traces can introduce hazards. For mid-scale models, however, Thinking yields safer behavior—lower risk and execution levels and higher refusal rates—suggesting that structured reasoning can be leveraged to reduce exposure when model capacity is sufficient. At very large scale, this pattern reverses: the MoE-based Qwen-235B shows higher risk levels under Thinking, reflecting an “always-help” tendency that makes unsafe responses more actionable. In short, reasoning improves safety up to a point; beyond that, greater capability without stronger alignment can raise exposure.」とモデルサイズとの関係が興味深い。
- Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.7]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。 10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 21:08:07 GMT)
- 「The benchmark covers both multi-turn goal-oriented environments and single-turn reasoning or problem-solving tasks, explicitly testing whether LLMs can accumulate knowledge and refine strategies during deployment, a process we term test-time evolution. We unify and implement over ten representative memory modules, including retrieval-based, workflow, and hierarchical memory systems, to study their adaptation behavior. To further examine experience reuse, we introduce ExpRAG, a simple retrieval-based baseline that leverages prior task experiences, and further develop ReMem, an advanced action–think–memory refine pipeline that tightly integrates reasoning, action, and memory updates for continual improvement.」とのこと。比較が難しい分野でありとてもありがたいベンチマーク。シンプルな戦略が好スコアを出している点も興味深い。。。
- Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark [48.0]
ビデオ生成モデルは、Chain-of-Frames (CoF)推論を通じて、潜在的な世界シミュレータとして登場した。 既存のベンチマークは、忠実さやアライメントに重点を置いており、CoFの推論を評価していない。 我々は,認知科学と実世界のAI応用を基盤としたフレームワークであるGen-ViReを紹介する。
論文 参考訳(メタデータ) (Mon, 17 Nov 2025 19:11:39 GMT)
- ビデオ生成モデルを通じた因果関係の把握(world modelへの可能性)を評価するベンチマークの提案。「Gen-ViRe evaluates six core cognitive dimensions: (1) Perceptual, (2) Analogical, (3) Abstract, (4) Planning, (5) Spatial & Temporal, and (6) Algorithmic & Logical, with each dimension comprising four different sub-categories.」
- 「Sora-2 achieves the highest overall score (0.560), establishing the top tier with particularly strong performance in the most cognitively demanding domains: “Abstract Reasoning” (0.604), “Algorithmic & Logical” (0.472), and “Perceptual” (0.496). The second tier comprises three highly competitive models—Hailuo-2.3 (0.493), Wan-2.5 (0.490), and Veo-3.1 (0.486)—each exhibiting distinct specialized strengths. Hailuo-2.3 achieves the highest score in “Planning” (0.778), showcasing exceptional sequential decision-making capabilities, while Wan-2.5 leads in “Analogy” (0.500), excelling at analogical reasoning.」とモデルごとに特性がかなり異なるのが興味深い。
- リポジトリはhttps://github.com/L-CodingSpace/GVR
- WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation [98.5]
We present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation。 WeAVE-100kは、370Kのダイアログターンと500Kイメージにまたがる100Kのインターリーブサンプルの大規模なデータセットである。 WeAVEBenchは480の画像に基づいた100のタスクを備えた人手によるベンチマークである。
論文 参考訳(メタデータ) (Fri, 14 Nov 2025 16:02:38 GMT)
- 「WEAVE- 100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context.」とマルチターンな生成に関するベンチマークの提案、評価方法は「we employ a key-point- based scoring approach using structured evaluation criteria.」
- (最新版ではないようだが)NanoBananaのスコアがとても高い。
- プロジェクトサイトはWeave
- When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.7]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。 546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (Tue, 04 Nov 2025 18:00:51 GMT)
- 「To bridge this gap, we introduce MIRA (Multimodal Imagination for Reasoning Assessment), a benchmark designed to evaluate reasoning scenarios where generating or leveraging intermediate visual representations is essential. Each instance is constructed according to three principles: (1) requiring intermediate visual cues to answer the question, (2) pairing each instance with annotated step-wise visual clues to enable evaluation under a Visual-CoT setup, and (3) enforcing strict human annotation and cross-validation to guarantee data quality.」と視覚的・画像的な中間表現を必要とする推論のためのベンチマークの提案。フロンティアモデルでも難しいタスクになっている(が、公開モデルも健闘しているように見える)
- プロジェクトサイトはWhen Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought