- JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.0]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLLMベースの判断を評価するためのベンチマークである。 審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 17:58:19 GMT) - LLMベースの評価者を評価するためのベンチマーク。「Among all the models, OpenAI’s latest o1-preview and o1-mini perform the best overall, achieving 75.43% and 65.71% accuracy respectively.」とのことでo1の能力が高いのが興味深い。
- リポジトリはGitHub – ScalerLab/JudgeBench
タグ: ベンチマーク
ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition
- ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition [111.3]
ActionAtlasは、様々なスポーツのショートビデオを含むビデオ質問応答ベンチマークである。 このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。 我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
論文 参考訳(メタデータ) (Tue, 08 Oct 2024 07:55:09 GMT) - 「The question pinpoints specific individuals, asking which choice “best” describes their action within a certain temporal context.」というデータセット。とても難しく見える。。。
- プロジェクトサイトはActionAtlas (mrsalehi.github.io)
MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
- MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。 その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文 参考訳(メタデータ) (Thu, 10 Oct 2024 17:55:02 GMT) - マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
- リポジトリはMRAG-Bench (mragbench.github.io)
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents
- Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.6]
Agent Security Bench (ASB) は、LLMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するためのフレームワークである。 我々は, インジェクション攻撃10件, メモリ中毒攻撃, 新規のPlan-of-Thoughtバックドア攻撃, 混合攻撃10件, 対応するバックボーン13件についてベンチマークを行った。 ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 16:30:47 GMT) - エージェントに対する攻撃と防御のベンチマーク。基礎性能が高くないとそもそもASRが低いが、性能が高いと攻撃を拒否することも可能になるように見える。結果が興味深い。
- リポジトリはGitHub – agiresearch/ASB: Agent Security Bench (ASB)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.9]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (Tue, 01 Oct 2024 15:11:24 GMT) - マルチモーダル、かつ、マルチストラクチャなデータを取り扱うタスクに対するベンチマークの提案。GPT-4oでもスコアは相当低いが、OpenAI o1に向くタスクな気もしていてo1を含むシステムで試してみたいところ。
- リポジトリはGitHub – FFD8FFE/babelbench
Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models
- Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。 私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。 ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文 参考訳(メタデータ) (Sun, 22 Sep 2024 00:30:11 GMT) - 多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
- リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)
Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization
- Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.3]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。 これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。 様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (Fri, 27 Sep 2024 03:49:56 GMT) - 「While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank.」とのことで作られたデータセット。面白い傾向が出ている一方でLLMのベンチマークで主要な対象にされているところは難易度を分けるのにも苦労しそうな印象がある。
- リポジトリはfuronghuang-lab/Easy2Hard-Bench · Datasets at Hugging Face
日本語版Gemma 2 2B, Liquid Foundation Models (LFMs), Meta Movie Gen, CulturalBench
先週の発表で気になったのはGoogleによる日本語版 Gemma 2の公開(Google Developers Japan: 日本語版 Gemma 2 2B を公開 (googleblog.com))とLiquid AIによるLiquid Foundation Models (LFMs)の発表(Liquid Foundation Models: Our First Series of Generative AI Models)、Metaによる動画生成AI、Meta Movie Genの発表(Meta Movie Gen)だった。
1つ目は言語特化モデルの可能性を感じる小規模・高性能モデルである。「東京科学大学 情報理工学院 情報工学系の岡崎直観教授らの研究チームと協力し、日本におけるオープンモデルの開発支援、および、新しい技術の開拓への取り組みも進めます。」との記載もあり、日本語という言語だけでなく文化理解のような部分にも注目。先週でていたCultualBenchのようなベンチマーク構築の動きもさかん。
2つ目はGPT系アーキテクチャではないLLMとのこと。論文やテクニカルレポートが出ていないので何とも言えない部分があるが、状態空間モデルではなくAttentionを効率化するアプローチのように見える。長文における処理が大幅に効率化されているとのことで期待大。
最後はMetaによるテキストからの動画生成AIで単純な生成だけでなく、編集も可能、元の静止画も指定可能。「On text-to-video generation, we outperform prior state-of-the-art, including commercial systems such as Runway Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) on overall video quality」と他モデルよりも良い性能であるとのこと。
(10/19追記) arXivに論文が出ていたので追加。
- CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.8]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。 同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。 人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 17:04:31 GMT) - 45か国をカバーする文化的ベンチマーク
- リポジトリはCulturalBench – a Hugging Face Space by kellycyy
- Movie Gen: A Cast of Media Foundation Models [133.4]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。 ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (Thu, 17 Oct 2024 16:22:46 GMT)
SWE-bench-java: A GitHub Issue Resolving Benchmark for Java
- SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.2]
大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。 マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。 SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
論文 参考訳(メタデータ) (Mon, 26 Aug 2024 15:30:05 GMT) - Javaを対象としたSWE-bench。leakの心配はなくはないが、丁寧に構築されたデータセットであり良い評価ができそう。現状のリーダーボードだとSWE-agent + deepseek-chat-v2 > SWE-agent + deepseek-coder-v2 > SWE-agent + gpt-4o-2024-05-13と、deepseek v2がGPT-4oを上回っている。
- リポジトリはMulti-SWE-bench
LogicGame
- LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (Wed, 28 Aug 2024 13:16:41 GMT) - ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
- GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ