コンテンツへスキップ
- ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments [43.1]
我々は150のマルチターンシナリオを通じて人間とAIの対立を評価するベンチマークであるConflictBenchを紹介した。 ConflictBenchはテキストベースのシミュレーションエンジンと視覚的に接地された世界モデルを統合し,動的条件下でのエージェントの知覚,計画,行動を可能にする。
論文 参考訳(メタデータ) (Mon, 09 Mar 2026 06:59:48 GMT)
- 「we introduce ConflictBench, a benchmark designed to evaluate human–AI conflict through interactive, multi-turn, and multi- modal protocols that better reflect the complex trade-offs agents may face when their goals conflict with human interests.」というベンチマーク。GPT-5、Qwenのスコアが良くこのあたりの対策もされているのだろうか・・・
- Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding [96.8]
本稿では,最上位のMLLMが個別の意味空間をどのようにナビゲートするかを評価するためのベンチマークを紹介する。 モデルは基本的なシンボル認識に失敗することが多いが、複雑な推論タスクに成功している。 この作業は、より厳格で人間指向のインテリジェントなシステムを開発するためのロードマップを提供する。
論文 参考訳(メタデータ) (Thu, 19 Mar 2026 04:08:20 GMT)
- 「despite impressive reasoning capabilities, current models frequently fail at foundational visual symbol grounding, relying instead on linguistic priors, procedural imitation, or memorized patterns. Our findings challenge a prevailing assumption in multimodal intelligence that visual recognition is inherently simpler than reasoning. Instead, we observe a consistent recognition-reasoning inversion phenomenon, where higher-level reasoning performance often masks deficiencies in low-level symbolic perception. This phenomenon underscores a key limitation of existing training paradigms: while models excel at leveraging large-scale continual natural images, they struggle to construct stable, compositional visual representations of abstract, discrete symbols.」という面白い指摘。
- CUBE: A Standard for Unifying Agent Benchmarks [139.0]
MCPとGymをベースとしたユニバーサルプロトコル標準CUBE(Common Unified Benchmark Environments)を提案する。 CUBEは、任意の準拠プラットフォームがカスタム統合なしで、評価、RLトレーニング、データ生成のための準拠ベンチマークにアクセスできるようにする。
論文 参考訳(メタデータ) (Mon, 16 Mar 2026 18:31:37 GMT)
- 「We propose CUBE (Common Unified Benchmark Envi- ronments), a protocol standard designed to unify the ML Community by establishing a universal interface between benchmarks and evaluation frameworks.1 The core insight is simple: if we define a consistent API contract, any CUBE- compliant benchmark becomes immediately usable by any CUBE-compliant platform.」と、ベンチマーク評価基盤を統合していこうという取り組み。「The importance of multi-benchmarking cannot be overstated. There are currently over 300 agentic benchmarks available, many of which are highly innovative but remain largely unknown because they are too difficult to set up.」はその通りで重要な取り組み(だが簡単ではない・・・)
- リポジトリはGitHub – The-AI-Alliance/cube-standard: Standardize benchmark wrapping so the community can wrap various otherwise-incompatible benchmarks uniformly and use them everywhere. · GitHub
- Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.7]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。 FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。 FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な “ルーラー” の提供を目指す。
論文 参考訳(メタデータ) (Sat, 28 Feb 2026 05:41:57 GMT)
- Few shotでの転移性を評価するベンチマークの提案。
- リポジトリはGitHub – Frankluox/FewTrans · GitHub
- OmniGAIA: Towards Native Omni-Modal AI Agents [103.8]
我々は、深い推論とマルチターンツールの実行を必要とするタスクにおいて、オムニモーダルエージェントを評価するために設計されたベンチマークを導入する。 我々は,Omni-modal foundation agentであるOmniAtlasを提案する。
論文 参考訳(メタデータ) (Thu, 26 Feb 2026 11:35:04 GMT)
- 「OmniGAIA, a challenging benchmark for native omni-modal agents. OmniGAIA comprises 360 tasks across 9 real-world domains, covering both video-with-audio and image+audio settings, and explicitly requires multi-turn tool use (e g , web search/browsing and code) to produce verifiable open-form answers.」とマルチモーダルなベンチマーク。デモが分かりやすい。
- リポジトリはGitHub – RUC-NLPIR/OmniGAIA: OmniGAIA: Towards Native Omni-Modal AI Agents、リーダーボードはOmniGAIA Leaderboard – a Hugging Face Space by RUC-NLPIR、商用モデル(Gemini)の強さが目立つ
- Interactive Benchmarks [45.7]
予算制約下でのインタラクティブなプロセスにおけるモデルの推論能力を評価する統一評価パラダイムであるInteractive Benchmarksを提案する。 このフレームワークを2つの設定でインスタンス化する: 対話的証明(Interactive Proofs) — モデルは判断者と相互作用し、論理と数学の客観的な真実や答えを推論する。
論文 参考訳(メタデータ) (Thu, 05 Mar 2026 02:18:26 GMT)
- 「By actively collecting information, the agent can update its beliefs and make better decisions under uncertainty. To evaluate a model’s ability to reason while actively acquiring information, we draw inspiration from the concept of Interactive Proofs in computational complexity theory (Goldwasser et al , 2019) and propose a unified evaluation paradigm, which we call Interactive Benchmarks.」という行動しながら答えを見出すタイプのベンチマーク。現実的に重要なタスク。(汎用モデルで)このような動作が可能になってきているのも感慨深いものがある。
- リポジトリはGitHub – interactivebench/InteractiveBench: Official Project Page for Interactive Benchmarks · GitHub
- A Very Big Video Reasoning Suite [155.7]
ビデオモデルの急速な普及は視覚的品質を捉えており、その推論能力は未解明のままである。 Very Big Video Reasoning(VBVR)データセットは、200のキュレートされた推論タスクにまたがる、前例のない大規模なリソースである。 VBVR-Benchは、ルールベースのヒューマンアライメントスコアラーによるモデルベースの判断を超えて、検証可能な評価フレームワークである。
論文 参考訳(メタデータ) (Tue, 24 Feb 2026 17:59:15 GMT)
- 「we present the VBVR suite, centered on an unprecedentedly large-scale and continually growing dataset for video reasoning, VBVR-Dataset, together with a verifiable, human-aligned evaluation toolkit, VBVR-Bench.」とのこと、とても規模が大きい。ベンチマークとしては「Proprietary models perform better overall, led by Sora 2 (0.546) and Veo 3.1 (0.480), particularly in Abstraction and Transformation categories. Fine-tuning Wan2.2-I2V-A14B on VBVR-Dataset yields VBVR-Wan2.2, which achieves a new state-of-the-art with an overall score of 0.685, representing an 84.6% relative improvement over its base model. 」とfine tuningの効果は大きいよう。
- プロジェクトサイトはA Very Big Video Reasoning Suite
- SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.9]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。 SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。 キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。 自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (Fri, 13 Feb 2026 07:06:06 GMT)
- Skillsに関するベンチマーク。Findingsが「(1) curated Skills provide substantial but variable benefit (+16.2 percentage points average, with high variance across domains and configurations); (2) self-generated Skills provide negligible or negative benefit (–1.3pp average), demonstrating that effective Skills require human- curated domain expertise; (3) less is more—focused Skills with 2–3 modules outperform comprehensive documentation; and (4) Skills can partially substitute for model scale, enabling smaller models to match larger ones on procedural tasks.」が興味深く、(2)もそうだろうと思わなくはないが、今後の工夫でどうにかなるのかが気になるところ。
- InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.3]
InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。 我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。 InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
論文 参考訳(メタデータ) (Mon, 16 Feb 2026 00:40:31 GMT)
- 「We introduce InnoEval, a deep idea evaluation frame- work to achieve multi-dimensional, multi-perspective inno- vation assessment grounded in heterogeneous knowledge. We construct an idea evaluation dataset that supports point- wise, pair-wise, and group-wise assessment, incorporating quantitative, qualitative, and human evaluation strategies.」とのこと。凝ったパイプライン構成
- リポジトリはGitHub – zjunlp/InnoEval: InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem、デモもある