ベンチマーク – ページ 12 – arXiv最新論文の紹介

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。 LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文参考訳（メタデータ） (Wed, 17 Jul 2024 17:51:53 GMT)
マルチモーダルなLLM用のベンチマーク。LiveBenchではGPT4 TurboがGPT4oより高スコアとなっている。
リポジトリはGitHub – EvolvingLMMs-Lab/lmms-eval: Accelerating the development of large multimodal models (LMMs) with lmms-eval、リーダーボードはLiveBench – a Hugging Face Space by lmms-lab

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 13:17:42 GMT)
「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems

GTA: A Benchmark for General Tool Agents

GTA: A Benchmark for General Tool Agents [32.4]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。 GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文参考訳（メタデータ） (Thu, 11 Jul 2024 17:50:09 GMT)
リアルなシナリオでツールを利用して問題を解くエージェントの能力を評価するベンチマーク。想定されているツールはOCRやDrawBox、Calculator、TextToImageなど14種類。「Our findings show that realworld user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%.」とのこと。
リポジトリはGitHub – open-compass/GTA: Official repository for paper “GTA: A Benchmark for General Tool Agents”

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.8]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 17:54:37 GMT)
マルチモーダルエージェントのためのベンチマーク、対象タスクは「494 real-world tasks across the complete data science and engineering workflows (from data warehousing to orchestration)」とこれが自動化されると影響は少なくなさそう（ただしAutoMLなど過去から自動化を目指してきた業務ではある）
「The most advanced VLM (GPT-4V) still performs poorly on Spider2-V (achieving 14.0% success rate), rendering it a very challenging benchmark.」と最新モデルでもスコアはかなり悪い。
リポジトリはSpider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents [46.8]
大規模言語モデル(LLM)は人間とコンピュータの相互作用においてホットスポットとなっている。 Mobile-Benchは、LLMベースのモバイルエージェントの能力を評価するための新しいベンチマークである。
論文参考訳（メタデータ） (Mon, 01 Jul 2024 06:10:01 GMT)
モバイルエージェント向けベンチマーク
リポジトリはhttps://github.com/XiaoMi/MobileBenchとのこと（arXivへの公開時点では404）

BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.6]
BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。私たちはまず『Understanding Literature』を2つの原子能力に分解した。次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。 2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
論文参考訳（メタデータ） (Sat, 29 Jun 2024 15:23:28 GMT)
biomedical分野向けのAIエージェントベンチマーク。「Knowledge Graph Question Answering」、「Scientific Claim Verification」を基礎的能力としてKGCheckという総合的なタスクを提案
リポジトリはGitHub – westlake-autolab/Agent4S-BioKG: Agent4S-BioKG: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

AutoBencher、A Survey of Data Synthesis Approaches

AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.7]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。 AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文参考訳（メタデータ） (Thu, 11 Jul 2024 10:03:47 GMT)
ベンチマークを自動的に構築する取り組み。
しばらくするとベンチマークを自動構築、後述のような方法でデータも自動合成、自己改善、みたいなモデル構築が流行ったりするのだろうか。まさにAutoML。
リポジトリはGitHub – XiangLi1999/AutoBencher

A Survey of Data Synthesis Approaches [20.2]
1)多様性の向上,2)データバランシング,3)ドメインシフトへの対応,4)エッジケースの解決。本稿では, 合成データの今後の方向性と, 重要な3つの方向性についても論じる: 1) 品質, 2) 合成データの評価, 3) マルチモデルデータ拡張。
論文参考訳（メタデータ） (Thu, 04 Jul 2024 06:37:09 GMT)
合成データ関連のサーベイ。
リポジトリはGitHub – MiuLab/SynData-Survey

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文参考訳（メタデータ） (Mon, 01 Jul 2024 17:59:26 GMT)
マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR＋LLMを超えている。
リポジトリはMMLongBench-Doc (mayubo2333.github.io)

LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.1]
人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。人間のデータとの比較がないと、これらの評価の有効性が懸念される。 JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
論文参考訳（メタデータ） (Wed, 26 Jun 2024 14:56:13 GMT)
よく用いられるテクニックであるLLMを用いた評価に関するベンチマーク。「GPT-4o ranks first across several evaluation scenarios, but the Llama-3-70B and Mixtral-8x22B open models are relatively close, and outperform GPT-4o on some assessment types such as categorical sentence acceptability (CoLa) and graded summary quality (Summeval).」との結果。有効性はタスクによってかなり違う印象がある。
リポジトリはGitHub – dmg-illc/JUDGE-BENCH

WildVision

WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.9]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文参考訳（メタデータ） (Sun, 16 Jun 2024 20:53:25 GMT)
Vision Languageモデルの評価環境、人間の好みを収集するオンラインプラットフォームWILDVISION-ARENA(WV-ARENA)を作成。GPT-4の優秀さ、他のベンチマークとの差異が興味深い。
プロジェクトサイトはVision Arena (Testing VLMs side-by-side) – a Hugging Face Space by WildVision

2025年9月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30