ベンチマーク – ページ 3 – arXiv最新論文の紹介

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
論文参考訳（メタデータ） (Tue, 24 Dec 2024 10:07:51 GMT)
（o1自体は利用していないと言われているが）o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
リポジトリはGitHub – HJYao00/Mulberry

StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs

StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs [78.8]
StructTestは、構造化されたアウトプットを生成する能力に基づいて、大きな言語モデルを評価する新しいベンチマークである。 StructTestが一般的な推論能力のよいプロキシであることを示す。
論文参考訳（メタデータ） (Mon, 23 Dec 2024 22:08:40 GMT)
構造化出力のベンチマーク、「programmatically verifiable benchmark for evaluating instructionfollowing capabilities through structured outputs.」
現時点でデータは公開されていない・・・？

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating [40.4]
大規模視覚言語モデル(LVLM)は文書理解能力を大幅に改善した。既存の文書理解ベンチマークは少数のページしか処理できない。半自動構築パイプラインを開発し,2,325の高品質な質問応答ペアを収集し,33,000ページ以上の文書を網羅する。
論文参考訳（メタデータ） (Tue, 24 Dec 2024 13:39:32 GMT)
文章理解ベンチマークの提案、非常に大規模なデータセット。分析が詳細に行われており、PymuPDFとDocMindの差も面白かった。GPT-4oにおいてはImage inputよりDocmindを通した方がスコアが高そう。
リポジトリはGitHub – dengc2023/LongDocURL

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.5]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文参考訳（メタデータ） (Wed, 18 Dec 2024 18:55:40 GMT)
「TheAgentCompany measures the progress of these LLM agents’ performance on performing real-world professional tasks, by providing an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers.」というベンチマーク。現状、Claude 3.5 Sonnetの性能が高い結果になっているが、o1やo3での結果が気になるところ。
プロジェクトサイトはTheAgentCompany、リーダーボードはTheAgentCompany

SafeWorld: Geo-Diverse Safety Alignment

SafeWorld: Geo-Diverse Safety Alignment [107.8]
大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。 SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
論文参考訳（メタデータ） (Mon, 09 Dec 2024 13:31:46 GMT)
安全性評価のためのベンチマーク、「SAFEWORLD encompasses 2,342 test user queries, each grounded in high-quality, human-verified cultural norms and legal policies from 50 countries and 493 regions/races.」と文化的側面に注意が払われている。
リポジトリはGitHub – PlusLabNLP/SafeWorld

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models [112.9]
現在の方法では、ソース画像からアイデンティティとスタイルを抽出しようとする。スタイル」は、テクスチャ、色、芸術的要素を含む広い概念であるが、照明や動力学など他の重要な要素をカバーしていない。画像の美学を特定の視覚属性に分解するより効果的なアプローチを定式化し、ユーザーは異なる画像から照明、テクスチャ、ダイナミックスなどの特徴を適用できる。
論文参考訳（メタデータ） (Tue, 10 Dec 2024 17:02:58 GMT)
視覚的な属性（color, lighting, focus and depth of field, artistic stroke, dynamics, rhythm, designのような）を分類したデータセットfine-grained visual attributes dataset (FiVA)の提案と、画像から視覚属性の抽出・適用を行う fine-grained visual attribute adaptation framework (FiVA-Adapter)の提案。
プロジェクトサイトはFiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
論文参考訳（メタデータ） (Tue, 03 Dec 2024 07:03:25 GMT)
MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
リポジトリはhttps://github.com/QwenLM/CC-OCR

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [50.4]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
論文参考訳（メタデータ） (Wed, 04 Dec 2024 13:27:09 GMT)
GlobalなMMLU、元のデータセットの文化的バイアス、単純な翻訳では解消しきれない問題に関する言及が興味深い
データセットはCohereForAI/Global-MMLU · Datasets at Hugging Face

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.9]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文参考訳（メタデータ） (Mon, 25 Nov 2024 15:44:42 GMT)
きわめて多い言語のLLM評価ベンチマーク。タスクはVQA。
リポジトリはAll Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models

VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.6]
VBenchは、”ビデオ生成品質”を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文参考訳（メタデータ） (Wed, 20 Nov 2024 17:54:41 GMT)
Video generationのためのベンチマーク
リポジトリはGitHub – Vchitect/VBench: [CVPR2024 Highlight] VBench – We Evaluate Video Generation、リーダーボードも公開されているVBench Leaderboard – a Hugging Face Space by Vchitect

2025年3月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31