- MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.2]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。 我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。 我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (Thu, 13 Feb 2025 18:59:46 GMT) - 「we introduce MMECoT, a specialized benchmark evaluating the CoT reasoning performance of LMMs, spanning six domains: math, science, OCR, logic, space-time, and general scenes.」というベンチマーク
- プロジェクトサイトはMME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency、LeaderboardトップがKimi k1.5でGPT-4oを超えているという驚きの結果。
タグ: ベンチマーク
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines
- SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [122.0]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。 しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。 285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (Thu, 20 Feb 2025 17:05:58 GMT) - ByteDanceによる広範かつ難しいベンチマークの提案。DeepSeek R1の成績が良い他、Doubao 1.5pro – Doubao Teamも好成績。overallだとDeepSeek-R1 > DeepSeek-R1-Zero > o1-2024-12-17 > o3-mini-2025-01-31-high > o3-mini-2025-01-31-medium > Doubao-1.5-pro-32k-250115 > qwen-max-2025-01-25 > claude-3-5-sonnet-20241022 > o3-mini-2025-01-31-low > gemini-2.0-flashというのが現在のリーダーボード。
- リポジトリはsuper gpqa
SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
- SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? [0.0]
SWE-LancerはUpworkの1,400以上のフリーランスソフトウェアエンジニアリングタスクのベンチマークである。 独立したタスクは、経験豊富なソフトウェアエンジニアによって三度検証されたエンドツーエンドのテストによって評価される。 モデル性能を評価し、フロンティアモデルが依然としてほとんどのタスクを解決できないことを発見した。
論文 参考訳(メタデータ) (Mon, 17 Feb 2025 18:41:16 GMT) - 「SWE-Lancer encompasses both independent engineering tasks — ranging from $50 bug fixes to $32,000 feature implementations —」と金額換算が可能なベンチマーク
- リポジトリはGitHub – openai/SWELancer-Benchmark: This repo contains the dataset and code for the paper “SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?”
How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation
- How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation [30.7]
本稿では,デジタル双生児が連続した人間の行動をシミュレートする能力を評価する最初のベンチマークであるBehavimentChainを紹介する。 BehaviorChainは、多種多様で高品質なペルソナベースの行動連鎖で構成され、1,001のユニークなペルソナに対して15,846の異なる振る舞いがある。 総合的な評価結果は、最先端モデルでさえ、連続した人間の行動の正確なシミュレートに苦慮していることを示している。
論文 参考訳(メタデータ) (Thu, 20 Feb 2025 15:29:32 GMT) - 人のデジタルツインを構築できるのであれば可能なはずの連続的行動の予測に関するベンチマーク。「BEHAVIORCHAIN instance is composed of four key components: a persona profile p, a historical narrative h, a behavior chain B = {b1,b2,…,bn} of the specific persona, and the contextual setting for each behavior C = {c1,c2,…,cn}.」というデータセットで「BEHAVIORCHAIN comprises 1,001 high-quality, persona-based behavior chains, each containing 10–20 context-behavior nodes, automatically extracted from fiction and biographical literature.」とのこと。GPT-4oでも解くのが難しいタスクになっているようだがLlamaの性能が意外と高い。Leakの影響は気になるが面白いタスク。
- リポジトリはGitHub – O-L1RU1/BehaviorChain
mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval
- mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.2]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。 本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。 英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (Fri, 31 Jan 2025 16:24:46 GMT) - 多言語でのInstruction Followingベンチマーク、「mFollowIR is built on top of the TREC NeuCLIR collections and spans the Persian, Chinese, and Russian languages.」
- リポジトリはGitHub – orionw/FollowIR: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructionsとのことだが、マルチリンガル版はまだアップロードされていない?
BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation
- BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.5]
このデータセットは、まず英語以外の言語で手作りされている。 それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
論文 参考訳(メタデータ) (Thu, 06 Feb 2025 18:56:37 GMT) - 翻訳用ベンチマーク、「Non-English-centric focus. Source-BOUQuET is handcrafted by proficient speakers of French, German, Hindi, Indonesian, Mandarin Chinese, Russian, and Spanish.」というのが特徴的
- プロジェクトサイトはBouquet – a Hugging Face Space by facebook
近い報告として文書レベルのデータセットも提案されていた。
- DOLFIN — Document-Level Financial test set for Machine Translation [5.3]
文書レベル機械翻訳(MT)専用のテストセットを提案する。 データセットは、専門の財務文書から構築される。 テストセットは5つの言語ペアに対する1950年の平均的なアライメントセクションで構成されている。
論文 参考訳(メタデータ) (Wed, 05 Feb 2025 10:30:40 GMT) - 「en、fr、es、it、de」が対象、リポジトリはLinguaCustodia/dolfin · Datasets at Hugging Face
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
- PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.9]
視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。 本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。 以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
論文 参考訳(メタデータ) (Wed, 29 Jan 2025 03:52:39 GMT) - VLMが物理を理解しているかを測るベンチマークとAgenticな physical world understandingフレームワーク、PhysAgentの提案。
- 現状の結果は意外なことに(?) o1 > InternVL2.5-38B > InternVL2.5-78B > GPT-4o > Gemini-1.5-pro
- プロジェクトサイトはPhysBench、データセットはUSC-GVL/PhysBench · Datasets at Hugging Face
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.9]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。 通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (Fri, 24 Jan 2025 13:48:10 GMT) - LLMの批判能力を評価するためのベンチマークの提案、「We investigate three distinct scenarios: self-critique, crosscritique, and iterative critique. Our findings reveal that in nearly all cases, the o1-mini model demonstrates the most impressive performance.」とのこと。
- リポジトリはGitHub – tangzhy/RealCritic
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
- MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.8]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。 MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 14:07:56 GMT) - Medical分野のベンチマーク。o1だけでなくDeepseek R1の結果も載っており、対応が速い。この結果だとo1はDeepseek R1より大幅にスコアが高い。
- リポジトリはGitHub – TsinghuaC3I/MedXpertQA: MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models / Leap of Thought
- A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.2]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。 その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (Sat, 25 Jan 2025 09:11:15 GMT) - LLMの創造性を測るベンチマークの提案、大喜利に注目しているのが興味深い(This paper investigates creativity in LLMs and provides an in-depth analysis of their Leap-of-Thought (LoT) abilities through the Oogiri game.)。
- (よく見る結果と異なり)GPT-4oをQwen-VLやGemini 1.5 Proが抜いているスコアになっている。
- プロジェクトサイトはLoTbench