ベンチマーク – ページ 21 – arXiv最新論文の紹介

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。質問は7つの言語ファミリーから11の言語で行われます。
論文参考訳（メタデータ） (Fri, 15 Mar 2024 15:08:39 GMT)
MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)＋画像キャプション（GPT-4V）を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark

Chatbot Arena

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [49.0]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文参考訳（メタデータ） (Thu, 7 Mar 2024 01:22:38 GMT)
Chatbot Arenaの論文、論文化されていなかったことに驚き。なかなか評価の難しいLLM界隈において重要な貢献だと思う。
プロジェクトサイトはChat with Open Large Language Models (lmsys.org)

Design2Code

Design2Code: How Far Are We From Automating Front-End Engineering? [83.1]
マルチモーダルLLMがビジュアルデザインをコード実装に直接変換するタスクを Design2Code タスクとして形式化し,包括的なベンチマークを行う。具体的には、テストケースとして、484の多様な現実世界のWebページのベンチマークを手動でキュレートする。我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
論文参考訳（メタデータ） (Tue, 5 Mar 2024 17:56:27 GMT)
WEBページの画像からコードを作れるかを検証した論文。GPT-4Vが最も性能が高いが、十分ではなさそう。既存のオープンソースモデルの性能はかなり悪い。論文中ではCogAgent – arXiv最新論文の紹介 (devneko.jp)をfine tuningしたDesign2Code-18Bを開発、公開している。
MistralベースのHuggingFaceM4/VLM_WebSight_finetuned · Hugging Faceがまずまずのスコアを出しており「WebSight VLM-8B performs better than Gemini direct prompting (54% win rate and 35% lose rate), suggesting that finetuning on a large amount of data can match commercial models in specific domains.」とされているのも興味深い。
リポジトリはDesign2Code: How Far Are We From Automating Front-End Engineering (salt-nlp.github.io)

LLM用金融ベンチマークと金融特化型LLM

LLMでも金融分野の研究は多い。

The FinBen: An Holistic Financial Benchmark for Large Language Models [75.1]
FinBenは、金融分野におけるLLMの能力を徹底的に評価するために設計された、初めての包括的なオープンソース評価ベンチマークである。 FinBenは、23の財務タスクにわたる35のデータセットを含み、Cattell-Horn-Carroll理論にインスパイアされた3つの難易度に分類されている。 GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLLMを評価した結果, 金融分野におけるその強みと限界についての知見が得られた。
論文参考訳（メタデータ） (Tue, 20 Feb 2024 02:16:16 GMT)
金融分野におけるLLMの評価用ベンチマーク、GPT-4はさすがの性能だがGeminiもよい線を行っていてタスクによっては優れている。Gemini Proの結果のようであり、Ultraが楽しみ
リポジトリはThe-FinAI/PIXIU: This repository introduces PIXIU, an open-source resource featuring the first financial large language models (LLMs), instruction tuning data, and evaluation benchmarks to holistically assess financial LLMs. Our goal is to continually push forward the open-source development of financial artificial intelligence (AI). (github.com)

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models [20.0]
FinTralは、Mistral-7bモデルに基づいて構築され、財務分析用に調整された、最先端のマルチモーダル言語モデル(LLM)のスイートである。我々はFinTralをドメイン固有の事前訓練、命令微調整、RLAIFトレーニングで強化する。我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。
論文参考訳（メタデータ） (Fri, 16 Feb 2024 05:05:12 GMT)
こちらはMistralをベースにしたLLM
ドメイン特化であれば7BでGPT-4と十分戦える点は面白い

AIR-Bench: Audio InstRuction Benchmark

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [98.7]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 15:41:22 GMT)
audio-language なベンチマーク。Foundation benchmark（基礎的タスク、emotion recognition, acoustic scene classification, music QAなど）とChat benchmark（実世界を想定した会話応答）で構成される。評価はGPT-4ベース。
「The evaluation code, datasets, and an open leaderboard will be made publicly available soon.」とのことで公開が楽しみ。

SALAD-Bench: SAfety evaluation for LLMs, Attack and Defense approaches

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [112.5]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (Thu, 8 Feb 2024 02:50:22 GMT)
LLMに対する攻撃・防御に特化したベンチマーク。GPT-4は優秀ではあるがClaude-2が勝っている場合もあり面白い。
リポジトリはOpenSafetyLab/SALAD-BENCH: SALAD benchmark (github.com)

ACES: Translation Accuracy ChallengE Set

Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.4]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (Mon, 29 Jan 2024 17:17:42 GMT)
機械翻訳に関する評価手法に対するベンチマーク。当然といえば当然だがBLEUのスコアが非常に低い。「we advise the reader not to draw any conclusions based solely on the ACES-Score」とは書かれているものの・・・。
リポジトリはnikitam/ACES · Datasets at Hugging Face、ライセンスはCreative Commons Attribution Non-Commercial Share Alike 4.0 (cc-by-nc-sa-4.0)

UltraTool

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [96.0]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。以前の作業とは異なり、計画中に事前に定義されたツールセットの制限を取り除く。
論文参考訳（メタデータ） (Tue, 30 Jan 2024 16:52:56 GMT)
ツールの利用計画や実行などエージェント的動作のためのツール利用ベンチマーク。Tool Creationが入っているのが特徴的に思える。
現状のベンチマーク結果はさすがのGPT-4という感じではあるが、各モデルに得意不得意があるように見えるのが興味深い。
リポジトリはJoeYing1019/UltraTool: Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios (github.com)

DebugBench

DebugBench: Evaluating Debugging Capability of Large Language Models [89.1]
DebugBench – LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 11:48:36 GMT)
デバッグ性能を評価する大規模なベンチマーク
「The experimental results reveal that while closed-source models are less effective compared to human performance, open-source models struggle to yield efficient outcomes in debugging tasks.」という結果で既存のOSSモデルはゼロショットでのデバッグができず、GPT-4でも十分とはいいがたい結果のよう。
リポジトリはthunlp/DebugBench: The repository for paper “DebugBench: “Evaluating Debugging Capability of Large Language Models”. (github.com)

TOFU: Task of Fictitious Unlearning

TOFU: A Task of Fictitious Unlearning for LLMs [99.9]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 18:57:12 GMT)
LLMに対するTask unlearningのベンチマーク。事前学習に存在しないデータをfinetuning で入れてunlearningできるかを評価するようなアプローチ。既存の手法は効果が薄いという結果。
「With that and our claim that existing unlearning tools are mostly ineffective, we pose the question of whether or not existing alignment tools work.」は重要な指摘で、多くのモデルでjail breakが可能なことから見てもalignmentで安全なシステムを作ろうとするアプローチは無理筋なんじゃないかと思わなくもない。
リポジトリはTOFU: A Task of Fictitious Unlearning for LLMs (locuslab.github.io)

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31