BAT: Benchmark for Auto-bidding Task 

  • BAT: Benchmark for Auto-bidding Task [67.6]
    本稿では,最も普及している2種類のオークション形式を含むオークションベンチマークを提案する。 我々は,新しいデータセットに基づいて,一連の堅牢なベースラインを実装した。 このベンチマークは、研究者や実践者が革新的なオートバイディングアルゴリズムを開発し、洗練するための、ユーザフレンドリで直感的なフレームワークを提供する。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 12:12:34 GMT)
  • 「To address this deficiency, we present an auction benchmark en- compassing the two most prevalent auction formats. We implement a series of robust baselines on a novel dataset, addressing the most salient Real-Time Bidding (RTB) problem domains: budget pacing uniformity and Cost Per Click (CPC) constraint optimization.」と珍しいベンチマーク
  • リポジトリはGitHub – avito-tech/bat-autobidding-benchmark

Benchmarking LLMs’ Swarm intelligence

  • Benchmarking LLMs’ Swarm intelligence [50.5]
    大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。 既存のベンチマークは、エージェントが不完全な時間的情報を扱うときに生じる分散調整のユニークな課題を完全には捉えないことが多い。 分散エージェントとして機能するLLMのSwarmインテリジェンス能力を体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 12:32:01 GMT)
  • 「we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks (Pursuit, Synchronization, For- aging, Flocking, Transport) within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k × k view) and local communication.」というベンチマークの提案。
  • リポジトリはGitHub – RUC-GSAI/YuLan-SwarmIntell: 🐝 SwarmBench: Benchmarking LLMs’ Swarm Intelligence

SITE: towards Spatial Intelligence Thorough Evaluation

  • SITE: towards Spatial Intelligence Thorough Evaluation [121.1]
    空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。 ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
    論文  参考訳(メタデータ)   (Thu, 08 May 2025 17:45:44 GMT)
  • Spatial Intelligenceのベンチマーク。GPT-4oでも人間との差が大きい。(そしてInternVL-2.5-8Bのスコアが意外と高い)
  • プロジェクトサイトはSITE: towards Spatial Intelligence Thorough Evaluation

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

  • Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.3]
    視覚的依存を明示する多モーダル数学的推論のための総合的なベンチマークであるVCBENCHを紹介する。 VCBENCHには6つの認知領域に1,720の問題がある。 我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
    論文  参考訳(メタデータ)   (Tue, 29 Apr 2025 03:45:30 GMT)
  • Visionに依存するよう設計された数学推論ベンチマークの提案
  • リポジトリはBenchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks

  • Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.7]
    この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。 この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
    論文  参考訳(メタデータ)   (Sat, 26 Apr 2025 07:48:52 GMT)
  • ベンチマークに関するサーベイ。「Fig6 Illustration of capability-based benchmark taxonomy involving: knowledge, reasoning, instruction following, multimodal, and safety.」が視覚的にとても分かりやすい。
  • リポジトリはGitHub – ALEX-nlp/Benchmark-of-core-capabilities

On Path to Multimodal Generalist: General-Level and General-Bench

  • On Path to Multimodal Generalist: General-Level and General-Bench [154.0]
    本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。 フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。 既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 17:59:32 GMT)
  • 「This leads to a critical question: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI?」に対する評価フレームワーク。自動運転のような大きく5段階のレベル設定を行っている。現時点では「Our evaluation of over 100 existing top-performing LLM/MLLM systems has uncovered critical insights into their capabilities and rankings as multimodal generalists. The most notable finding is that most MLLMs lack the cross-task or cross-modal synergy ability required for higher-level classifications, with even advanced models like GPT-4V and GPT-4o not achieving top ranks.」とのことだが…
  • プロジェクトサイトはPath to Multimodal Generalist、リーダーボードはPath to Multimodal Generalist

下記サーベイも注目

  • Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.5]
    推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。 人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。 大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
    論文  参考訳(メタデータ)   (Thu, 08 May 2025 03:35:23 GMT)
  • リポジトリはGitHub – HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models: The development and future prospects of multimodal reasoning models.

Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning 

  • Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.7]
    Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。 Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
    論文  参考訳(メタデータ)   (Thu, 24 Apr 2025 12:32:13 GMT)
  • 「We introduce Plasticine, the first open-source framework for benchmarking plasticity optimization in deep RL.」というベンチマーク。
    • 「plasticity loss, a phenomenon in which neural networks in RL agents gradually lose their ability to adapt and incorporate new information as training progresses (Dohare et al , 2024; Klein et al , 2024), thus significantly impeding the development of truly lifelong learning agents (Lyle and Pascanu, 2024).」
  • リポジトリはGitHub – RLE-Foundation/Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning.

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

  • VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.0]
    VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。 これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。 ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
    論文  参考訳(メタデータ)   (Mon, 21 Apr 2025 17:59:53 GMT)
  • 「We propose a challenging visual reasoning benchmark that is inherently difficult to articulate using language, providing a more rigorous evaluation of the visual reasoning capabilities of MLLMs.」というベンチマークの提案。商用APIのスコアも良くなく、非常に難しいベンチマークになっている。
  • リポジトリはVisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators 

  • Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.8]
    本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。 3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。 我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
    論文  参考訳(メタデータ)   (Mon, 21 Apr 2025 17:33:23 GMT)
  • 「we seek to understand the feasibility of using LLM-judges in place of typically used RMs in testtime compute procedures.」というモチベーションでの「we introduce the Judge Evaluation for Test-Time Scaling (JETTS) benchmark, which evaluates judge performance in three domains (math reasoning, code generation, and instruction following) under three task settings: response reranking, step-level beam search, and critique-based response refinement.」というベンチマークの提案。「We find that weak judges can help strong generators in easier tasks, such as instruction following, but not in reasoning-intensive tasks like coding or math. Larger judges bring the most benefit for math and instruction following tasks, but no evaluated judges are able to reliably improve generator performance for coding. Lastly, while natural language critiques are touted as a defining advantage of judges over RMs, we find that such critiques have significant room for improvement in terms of utility.」となかなか厳しい結果。
  • リポジトリはGitHub – SalesforceAIResearch/jetts-benchmark: Code repository for the paper “Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators”

MM-IFEngine: Towards Multimodal Instruction Following 

  • MM-IFEngine: Towards Multimodal Instruction Following [85.9]
    高品質なイメージインストラクションペアを生成するパイプラインであるMM-IFEngineを提案する。 MM-IFInstruct-23kはSFT(Supervised Fine-Tuning)に適しているが、DPO(Direct Preference Optimization)のためにMM-IFDPO-23kとして拡張されている。 また、MM-IFEvalは、困難で多様なマルチモーダル命令追従ベンチマークである。
    論文  参考訳(メタデータ)   (Thu, 10 Apr 2025 17:59:12 GMT)
  • 「the instruction-following ability of Multimodal Large Language Models」のベンチマークとモデル(公開モデルベース)の提案。商用モデルの強力さが目立つ。また、「DPO using MM-IFDPO-23k significantly surpasses SFT on MMIFInstruct-23k」は興味深い。
  • リポジトリはGitHub – SYuan03/MM-IFEngine: MM-IFEngine: Towards Multimodal Instruction Following