ベンチマーク – ページ 6 – arXiv最新論文の紹介

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.8]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。 CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文参考訳（メタデータ） (Tue, 22 Oct 2024 17:59:56 GMT)
MMMUの日本語版
リポジトリはJMMMU

Evaluating Cultural and Social Awareness of LLM Web Agents

Evaluating Cultural and Social Awareness of LLM Web Agents [113.5]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文参考訳（メタデータ） (Wed, 30 Oct 2024 17:35:44 GMT)
「(1) Can LLM agents detect and appropriately respond to user queries that violate cultural or social norms, such as searching for a wine gift in Iran, where it is culturally inappropriate?」というような文化的・社会的な面を考慮可能かを測るベンチマークの提案と検証。結果は「Specifically, LLMs perform considerably better in non-agent environments compared to web-based agent settings.」とやや驚き。
エージェント設計時の注意が必要なことが分かる。

JudgeBench: A Benchmark for Evaluating LLM-based Judges

JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.0]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLLMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (Wed, 16 Oct 2024 17:58:19 GMT)
LLMベースの評価者を評価するためのベンチマーク。「Among all the models, OpenAI’s latest o1-preview and o1-mini perform the best overall, achieving 75.43% and 65.71% accuracy respectively.」とのことでo1の能力が高いのが興味深い。
リポジトリはGitHub – ScalerLab/JudgeBench

ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition

ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition [111.3]
ActionAtlasは、様々なスポーツのショートビデオを含むビデオ質問応答ベンチマークである。このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
論文参考訳（メタデータ） (Tue, 08 Oct 2024 07:55:09 GMT)
「The question pinpoints specific individuals, asking which choice “best” describes their action within a certain temporal context.」というデータセット。とても難しく見える。。。
プロジェクトサイトはActionAtlas (mrsalehi.github.io)

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文参考訳（メタデータ） (Thu, 10 Oct 2024 17:55:02 GMT)
マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
リポジトリはMRAG-Bench (mragbench.github.io)

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.6]
Agent Security Bench (ASB) は、LLMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するためのフレームワークである。我々は, インジェクション攻撃10件, メモリ中毒攻撃, 新規のPlan-of-Thoughtバックドア攻撃, 混合攻撃10件, 対応するバックボーン13件についてベンチマークを行った。ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文参考訳（メタデータ） (Thu, 03 Oct 2024 16:30:47 GMT)
エージェントに対する攻撃と防御のベンチマーク。基礎性能が高くないとそもそもASRが低いが、性能が高いと攻撃を拒否することも可能になるように見える。結果が興味深い。
リポジトリはGitHub – agiresearch/ASB: Agent Security Bench (ASB)

BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data

BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.9]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (Tue, 01 Oct 2024 15:11:24 GMT)
マルチモーダル、かつ、マルチストラクチャなデータを取り扱うタスクに対するベンチマークの提案。GPT-4oでもスコアは相当低いが、OpenAI o1に向くタスクな気もしていてo1を含むシステムで試してみたいところ。
リポジトリはGitHub – FFD8FFE/babelbench

Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models

Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文参考訳（メタデータ） (Sun, 22 Sep 2024 00:30:11 GMT)
多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)

Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization

Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.3]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文参考訳（メタデータ） (Fri, 27 Sep 2024 03:49:56 GMT)
「While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank.」とのことで作られたデータセット。面白い傾向が出ている一方でLLMのベンチマークで主要な対象にされているところは難易度を分けるのにも苦労しそうな印象がある。
リポジトリはfuronghuang-lab/Easy2Hard-Bench · Datasets at Hugging Face

日本語版Gemma 2 2B, Liquid Foundation Models (LFMs), Meta Movie Gen, CulturalBench

先週の発表で気になったのはGoogleによる日本語版 Gemma 2の公開（Google Developers Japan: 日本語版 Gemma 2 2B を公開 (googleblog.com)）とLiquid AIによるLiquid Foundation Models (LFMs)の発表（Liquid Foundation Models: Our First Series of Generative AI Models）、Metaによる動画生成AI、Meta Movie Genの発表（Meta Movie Gen）だった。

１つ目は言語特化モデルの可能性を感じる小規模・高性能モデルである。「東京科学大学情報理工学院情報工学系の岡崎直観教授らの研究チームと協力し、日本におけるオープンモデルの開発支援、および、新しい技術の開拓への取り組みも進めます。」との記載もあり、日本語という言語だけでなく文化理解のような部分にも注目。先週でていたCultualBenchのようなベンチマーク構築の動きもさかん。

２つ目はGPT系アーキテクチャではないLLMとのこと。論文やテクニカルレポートが出ていないので何とも言えない部分があるが、状態空間モデルではなくAttentionを効率化するアプローチのように見える。長文における処理が大幅に効率化されているとのことで期待大。

最後はMetaによるテキストからの動画生成AIで単純な生成だけでなく、編集も可能、元の静止画も指定可能。「On text-to-video generation, we outperform prior state-of-the-art, including commercial systems such as Runway Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) on overall video quality」と他モデルよりも良い性能であるとのこと。
（10/19追記） arXivに論文が出ていたので追加。

CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.8]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文参考訳（メタデータ） (Thu, 03 Oct 2024 17:04:31 GMT)
45か国をカバーする文化的ベンチマーク
リポジトリはCulturalBench – a Hugging Face Space by kellycyy

Movie Gen: A Cast of Media Foundation Models [133.4]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文参考訳（メタデータ） (Thu, 17 Oct 2024 16:22:46 GMT)

2025年5月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31