WorldSimBench: Towards Video Generation Models as World Simulators

  • WorldSimBench: Towards Video Generation Models as World Simulators [79.7]
    我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。 WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。 我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
    論文  参考訳(メタデータ)   (Wed, 23 Oct 2024 17:56:11 GMT)
  • ビデオ生成を通して世界をシミュレーションできるのでは?という主張があるが、そのベンチマーク。ものにもよるが厳しそうな印象。「Finally, based on the overall Explicit Perceptual Evaluationand Implicit Manipulative Evaluationresults, we conclude that current video generation models still fail to effectively capture many physical rules, indicating significant improvements are needed before they can function as true World Simulators.」という記載も。
  • リポジトリはWorldSimBench: Towards Video Generation Models as World Simulators

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

  • JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.8]
    JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。 CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。 両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
    論文  参考訳(メタデータ)   (Tue, 22 Oct 2024 17:59:56 GMT)
  • MMMUの日本語版
  • リポジトリはJMMMU

Evaluating Cultural and Social Awareness of LLM Web Agents

  • Evaluating Cultural and Social Awareness of LLM Web Agents [113.5]
    CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。 提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。 実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:35:44 GMT)
  • 「(1) Can LLM agents detect and appropriately respond to user queries that violate cultural or social norms, such as searching for a wine gift in Iran, where it is culturally inappropriate?」というような文化的・社会的な面を考慮可能かを測るベンチマークの提案と検証。結果は「Specifically, LLMs perform considerably better in non-agent environments compared to web-based agent settings.」とやや驚き。
  • エージェント設計時の注意が必要なことが分かる。

JudgeBench: A Benchmark for Evaluating LLM-based Judges

  • JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.0]
    judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLLMベースの判断を評価するためのベンチマークである。 審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 17:58:19 GMT)
  • LLMベースの評価者を評価するためのベンチマーク。「Among all the models, OpenAI’s latest o1-preview and o1-mini perform the best overall, achieving 75.43% and 65.71% accuracy respectively.」とのことでo1の能力が高いのが興味深い。
  • リポジトリはGitHub – ScalerLab/JudgeBench

ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition 

  • ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition [111.3]
    ActionAtlasは、様々なスポーツのショートビデオを含むビデオ質問応答ベンチマークである。 このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。 我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
    論文  参考訳(メタデータ)   (Tue, 08 Oct 2024 07:55:09 GMT)
  • 「The question pinpoints specific individuals, asking which choice “best” describes their action within a certain temporal context.」というデータセット。とても難しく見える。。。
  • プロジェクトサイトはActionAtlas (mrsalehi.github.io)

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

  • MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
    MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。 その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:55:02 GMT)
  • マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
  • リポジトリはMRAG-Bench (mragbench.github.io)

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents 

  • Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.6]
    Agent Security Bench (ASB) は、LLMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するためのフレームワークである。 我々は, インジェクション攻撃10件, メモリ中毒攻撃, 新規のPlan-of-Thoughtバックドア攻撃, 混合攻撃10件, 対応するバックボーン13件についてベンチマークを行った。 ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 16:30:47 GMT)
  • エージェントに対する攻撃と防御のベンチマーク。基礎性能が高くないとそもそもASRが低いが、性能が高いと攻撃を拒否することも可能になるように見える。結果が興味深い。
  • リポジトリはGitHub – agiresearch/ASB: Agent Security Bench (ASB)

BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data

  • BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.9]
    大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
    論文  参考訳(メタデータ)   (Tue, 01 Oct 2024 15:11:24 GMT)
  • マルチモーダル、かつ、マルチストラクチャなデータを取り扱うタスクに対するベンチマークの提案。GPT-4oでもスコアは相当低いが、OpenAI o1に向くタスクな気もしていてo1を含むシステムで試してみたいところ。
  • リポジトリはGitHub – FFD8FFE/babelbench

Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models

  • Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
    具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。 私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。 ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
    論文  参考訳(メタデータ)   (Sun, 22 Sep 2024 00:30:11 GMT)
  • 多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
  • リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)

Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization

  • Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.3]
    さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。 これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。 様々な難易度にまたがる性能と一般化能力を総合的に分析する。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 03:49:56 GMT)
  • 「While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank.」とのことで作られたデータセット。面白い傾向が出ている一方でLLMのベンチマークで主要な対象にされているところは難易度を分けるのにも苦労しそうな印象がある。
  • リポジトリはfuronghuang-lab/Easy2Hard-Bench · Datasets at Hugging Face