ベンチマーク – ページ 22 – arXiv最新論文の紹介

LongBench

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [59.6]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (Mon, 28 Aug 2023 11:53:40 GMT)
LLM評価を前提としたベンチマークであり、バイリンガルかつ長文を対象としたもの。対象のタスクはMulti-document QA, Single-document QA, Summarization, Few-shot learning（「TREC: A classification task that requires categorizing questions, includes 50 categories in total」など）, Synthetic Tasks（「PassageRetrieval-en: Given 30 English Wikipedia paragraphs, determine which paragraph the given summary corresponds to」など）, Code Completionとのこと。カテゴリに若干違和感があるがタスクの詳細はLongBench/task.md at main · THUDM/LongBench · GitHubで様々な観点が入っている。ChatGLM2-6B-32kはかなり優秀のよう。
リポジトリはGitHub – THUDM/LongBench: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

MM-Vet

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [121.5]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (Fri, 4 Aug 2023 17:59:47 GMT)
VLなLLMを前提としたマルチモーダルベンチマーク。画像に対する単純な質問というわけではなく複数の能力（例えば画像にある数字を読み取ったうえで計算しないといけない等）が必要なデータセットになっていてより困難。
リポジトリはGitHub – yuweihao/MM-Vet: MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
論文参考訳（メタデータ） (Thu, 10 Aug 2023 07:02:13 GMT)
包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI（controllable knowledge re-injection）フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
リポジトリはGitHub – DCDmllm/Cheetah

SuperCLUE

SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.8]
中国の総合ベンチマーク SuperCLUE を提案する。 SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
論文参考訳（メタデータ） (Thu, 27 Jul 2023 17:24:09 GMT)
LLMを対象とした中国語の総合ベンチマークの提案。ベンチマークの構成や評価の仕方（GPT-4の使い方）がとても興味深い。
論文中では「Evaluation results show that there is still a large gap between Chinese LLMs and the top-performing models in the world.」と結論しているものの、ベンチマークの整備やモデル開発、最新手法の開発は非常に盛んで中国が米国を猛追している印象。
プロジェクトサイトはcluebenchmarks.com/superclue.html

L-Eval

L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
論文参考訳（メタデータ） (Thu, 20 Jul 2023 17:59:41 GMT)
長文を扱うベンチマークでタスクは様々（選択式の質問回答、Question Answering、要約など）、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark

MultiRobustBench

MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.7]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。 9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文参考訳（メタデータ） (Thu, 20 Jul 2023 01:34:16 GMT)
あまり見ないマルチアタックに対する評価フレームワークの提案。CIFAR-10が対象のよう。
プロジェクトサイトはmultirobustbench.github.io

WebArena

WebArena: A Realistic Web Environment for Building Autonomous Agents [83.3]
エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (Tue, 25 Jul 2023 22:59:32 GMT)
Web上でタスクを実行するエージェント用の検証環境とベンチマークの提案。GPT-4を用いてもsuccess rateは10.59と低い。リアル（そもそも達成不可能なタスクも含まれる）で難しいタスクを扱うベンチマークとして有用そう。
プロジェクトサイトはWebArena: A Realistic Web Environment for Building Autonomous Agents

How is ChatGPT’s behavior changing over time?

How is ChatGPT’s behavior changing over time? [36.9]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。 GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文参考訳（メタデータ） (Tue, 18 Jul 2023 06:56:08 GMT)
6月バージョンのGPT-4の性能が3月バージョンより落ちているのでは？としてバズった論文。
APIの挙動は変化するわけで総合的なタスクで評価しないと何とも言えないが、英文和訳タスクでも性能が落ちていそうだった OpenAI APIのアップデート（gpt-3.5-turbo-16k, gpt-4-0613）と機械翻訳 | ぷるーふおぶこんせぷと (staka.jp)
OpenAIはtwitterで「Based on developer feedback, we are extending support for gpt-3.5-turbo-0301 and gpt-4-0314 models in the OpenAI API until at least June 13, 2024.（https://twitter.com/OpenAI/status/1682059830499082240?s=20）」としており、過去バージョンのサポートが伸びるのはありがたい。評価フレームワークもあるとのことGitHub – openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.。

MMBench

MMBench: Is Your Multi-modal Model an All-around Player? [90.7]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。 MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文参考訳（メタデータ） (Wed, 12 Jul 2023 16:23:09 GMT)
Vision/Languageのベンチマーク。検証する能力が20あり、包括的なものになっている。プロジェクトサイトはOpenCompass

VideoGLUE

VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.2]
3つのタスクからなる慎重に設計された実験を用いて,既存の基礎モデルによる映像理解能力の評価を行った。一般的なビデオ理解タスクに適応する際のFMの有効性と効率を測定するために,ビデオGLUEスコア(VGS)を提案する。
論文参考訳（メタデータ） (Thu, 6 Jul 2023 17:47:52 GMT)
ビデオ理解における既存のFoudation Modelの比較、タスクはSpatioTemporal Action Localization (STAL), Temporal Action Localization (TAL), Video Classification (VC)
画像ベースのモデルが良い性能だったりすることがあり興味深い

2026年1月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31