ベンチマーク – ページ 8 – arXiv最新論文の紹介

How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation

How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation [30.7]
本稿では,デジタル双生児が連続した人間の行動をシミュレートする能力を評価する最初のベンチマークであるBehavimentChainを紹介する。 BehaviorChainは、多種多様で高品質なペルソナベースの行動連鎖で構成され、1,001のユニークなペルソナに対して15,846の異なる振る舞いがある。総合的な評価結果は、最先端モデルでさえ、連続した人間の行動の正確なシミュレートに苦慮していることを示している。
論文参考訳（メタデータ） (Thu, 20 Feb 2025 15:29:32 GMT)
人のデジタルツインを構築できるのであれば可能なはずの連続的行動の予測に関するベンチマーク。「BEHAVIORCHAIN instance is composed of four key components: a persona profile p, a historical narrative h, a behavior chain B = {b1,b2,…,bn} of the specific persona, and the contextual setting for each behavior C = {c1,c2,…,cn}.」というデータセットで「BEHAVIORCHAIN comprises 1,001 high-quality, persona-based behavior chains, each containing 10–20 context-behavior nodes, automatically extracted from fiction and biographical literature.」とのこと。GPT-4oでも解くのが難しいタスクになっているようだがLlamaの性能が意外と高い。Leakの影響は気になるが面白いタスク。
リポジトリはGitHub – O-L1RU1/BehaviorChain

mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval

mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.2]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文参考訳（メタデータ） (Fri, 31 Jan 2025 16:24:46 GMT)
多言語でのInstruction Followingベンチマーク、「mFollowIR is built on top of the TREC NeuCLIR collections and spans the Persian, Chinese, and Russian languages.」
リポジトリはGitHub – orionw/FollowIR: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructionsとのことだが、マルチリンガル版はまだアップロードされていない？

BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation

BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.5]
このデータセットは、まず英語以外の言語で手作りされている。それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
論文参考訳（メタデータ） (Thu, 06 Feb 2025 18:56:37 GMT)
翻訳用ベンチマーク、「Non-English-centric focus. Source-BOUQuET is handcrafted by proficient speakers of French, German, Hindi, Indonesian, Mandarin Chinese, Russian, and Spanish.」というのが特徴的
プロジェクトサイトはBouquet – a Hugging Face Space by facebook

近い報告として文書レベルのデータセットも提案されていた。

DOLFIN — Document-Level Financial test set for Machine Translation [5.3]
文書レベル機械翻訳(MT)専用のテストセットを提案する。データセットは、専門の財務文書から構築される。テストセットは5つの言語ペアに対する1950年の平均的なアライメントセクションで構成されている。
論文参考訳（メタデータ） (Wed, 05 Feb 2025 10:30:40 GMT)
「en、fr、es、it、de」が対象、リポジトリはLinguaCustodia/dolfin · Datasets at Hugging Face

PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.9]
視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
論文参考訳（メタデータ） (Wed, 29 Jan 2025 03:52:39 GMT)
VLMが物理を理解しているかを測るベンチマークとAgenticな physical world understandingフレームワーク、PhysAgentの提案。
現状の結果は意外なことに（？） o1 > InternVL2.5-38B > InternVL2.5-78B > GPT-4o > Gemini-1.5-pro
プロジェクトサイトはPhysBench、データセットはUSC-GVL/PhysBench · Datasets at Hugging Face

RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.9]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文参考訳（メタデータ） (Fri, 24 Jan 2025 13:48:10 GMT)
LLMの批判能力を評価するためのベンチマークの提案、「We investigate three distinct scenarios: self-critique, crosscritique, and iterative critique. Our findings reveal that in nearly all cases, the o1-mini model demonstrates the most impressive performance.」とのこと。
リポジトリはGitHub – tangzhy/RealCritic

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.8]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。 MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
論文参考訳（メタデータ） (Thu, 30 Jan 2025 14:07:56 GMT)
Medical分野のベンチマーク。o1だけでなくDeepseek R1の結果も載っており、対応が速い。この結果だとo1はDeepseek R1より大幅にスコアが高い。
リポジトリはGitHub – TsinghuaC3I/MedXpertQA: MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models / Leap of Thought

A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.2]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文参考訳（メタデータ） (Sat, 25 Jan 2025 09:11:15 GMT)
LLMの創造性を測るベンチマークの提案、大喜利に注目しているのが興味深い（This paper investigates creativity in LLMs and provides an in-depth analysis of their Leap-of-Thought (LoT) abilities through the Oogiri game.）。
（よく見る結果と異なり）GPT-4oをQwen-VLやGemini 1.5 Proが抜いているスコアになっている。
プロジェクトサイトはLoTbench

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos [44.4]
Video-MMMUは、ビデオから知識を取得し、活用するLMMの能力を評価するために設計されたベンチマークである。 Video-MMMUには、300のエキスパートレベルのビデオと、6つの分野にわたる900の人間による注釈付き質問が収集されている。デルタ知識(Deltaknowledge)は、ビデオ視聴後の性能改善を定量化する。
論文参考訳（メタデータ） (Thu, 23 Jan 2025 16:51:47 GMT)
VIDEOなMMMU、Claude 3.5 sonnetの性能が高い。
プロジェクトサイトはVideo-MMMU

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.4]
この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。 MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
論文参考訳（メタデータ） (Wed, 15 Jan 2025 14:30:13 GMT)
マルチモーダル、長い文書への検索ベンチマーク、document page-level and layout-level retrievalの２つがあるのが特徴的。
リポジトリはMMDocIR (MMDocIR)

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.6]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文参考訳（メタデータ） (Tue, 31 Dec 2024 07:32:35 GMT)
MLLMを対象としたOCRベンチマーク、「After carefully benchmarking state-of-the-art LMMs on OCRBench v2, we find that 36 out of 38 LMMs score below 50 (100 in total) and suffer from five-type limitations, including less frequently encountered text recognition, finegrained perception, layout perception, complex element parsing, and logical reasoning.」とのこと。
リポジトリはhttps://github.com/YuliangLiu/MultimodalOCR

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31