CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models 

  • CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.2]
    本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。 具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。 さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
    論文  参考訳(メタデータ)   (Sun, 23 Feb 2025 15:36:43 GMT)
  • 「To evaluate the critique abilities of LLMs on the code domain, we introduce the first holistic code critique benchmark CodeCriticBench, which includes the critique on both code generation and code QA tasks.」という珍しいタスクに対するベンチマーク。DeepSeek-R1とOpenAI o1-Previewの能力が高い。
  • リポジトリはGitHub – multimodal-art-projection/CodeCriticBench

DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking

  • DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking [96.9]
    我々は,工学的問題に対する完全かつ実現可能なソリューションを生成するシステムの能力を評価するために,新しいベンチマークであるSolutionBenchを導入する。 本稿では,木に基づく探索と二点思考機構を利用して信頼性の高いソリューションを生成する新しいシステムであるSolutionRAGを提案する。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 05:23:10 GMT)
  • 工学の問題に対するソリューションを生成するベンチマークSolutionBenchと、それを解く手法SolutionRAGの提案。RAGとあるが「 SolutionRAG employs a bi-point thinking approach, alternating between solution design and review, gradually enhancing the solution’s completeness and reliability.」というツリーを作りながらの探索でAgenticなアプローチ。
  • リポジトリはGitHub – Li-Z-Q/DeepSolution: DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking

EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking

  • EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.4]
    本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。 EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。 その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
    論文  参考訳(メタデータ)   (Tue, 18 Feb 2025 02:54:25 GMT)
  • 「Equivalence checking, i.e., determining whether two programs produce identical outputs for all possible inputs」に関するベンチマーク。o3-miniが頭一つ抜けた性能。

Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts

  • Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts [65.9]
    TimeTravelは、10つの主要な歴史的地域にわたる266の異なる文化にまたがる10,250のエキスパート認定サンプルのベンチマークである。 TimeTravelは、原稿、アートワーク、碑文、考古学的発見のAIによる分析のために設計されている。 我々は、TimeTravelで現代のAIモデルを評価し、その強みを強調し、改善すべき領域を特定する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 18:59:51 GMT)
  • 「By integrating AI with historical research, TimeTravel fosters AI-powered tools for historians, archaeologists, researchers, and cultural tourists to extract valuable insights while ensuring technology contributes meaningfully to historical discovery and cultural heritage preservation.」という変わったベンチマークの提案。日本の土偶や勾玉も含まれている。
  • プロジェクトサイトはTimeTravel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency 

  • MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.2]
    CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。 我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。 我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 18:59:46 GMT)
  • 「we introduce MMECoT, a specialized benchmark evaluating the CoT reasoning performance of LMMs, spanning six domains: math, science, OCR, logic, space-time, and general scenes.」というベンチマーク
  • プロジェクトサイトはMME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency、LeaderboardトップがKimi k1.5でGPT-4oを超えているという驚きの結果。

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines 

  • SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [122.0]
    大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。 しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。 285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 17:05:58 GMT)
  • ByteDanceによる広範かつ難しいベンチマークの提案。DeepSeek R1の成績が良い他、Doubao 1.5pro – Doubao Teamも好成績。overallだとDeepSeek-R1 > DeepSeek-R1-Zero > o1-2024-12-17 > o3-mini-2025-01-31-high > o3-mini-2025-01-31-medium > Doubao-1.5-pro-32k-250115 > qwen-max-2025-01-25 > claude-3-5-sonnet-20241022 > o3-mini-2025-01-31-low > gemini-2.0-flashというのが現在のリーダーボード
  • リポジトリはsuper gpqa

SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? 

How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation

  • How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation [30.7]
    本稿では,デジタル双生児が連続した人間の行動をシミュレートする能力を評価する最初のベンチマークであるBehavimentChainを紹介する。 BehaviorChainは、多種多様で高品質なペルソナベースの行動連鎖で構成され、1,001のユニークなペルソナに対して15,846の異なる振る舞いがある。 総合的な評価結果は、最先端モデルでさえ、連続した人間の行動の正確なシミュレートに苦慮していることを示している。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 15:29:32 GMT)
  • 人のデジタルツインを構築できるのであれば可能なはずの連続的行動の予測に関するベンチマーク。「BEHAVIORCHAIN instance is composed of four key components: a persona profile p, a historical narrative h, a behavior chain B = {b1,b2,…,bn} of the specific persona, and the contextual setting for each behavior C = {c1,c2,…,cn}.」というデータセットで「BEHAVIORCHAIN comprises 1,001 high-quality, persona-based behavior chains, each containing 10–20 context-behavior nodes, automatically extracted from fiction and biographical literature.」とのこと。GPT-4oでも解くのが難しいタスクになっているようだがLlamaの性能が意外と高い。Leakの影響は気になるが面白いタスク。
  • リポジトリはGitHub – O-L1RU1/BehaviorChain

mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval 

  • mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.2]
    本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。 本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。 英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
    論文  参考訳(メタデータ)   (Fri, 31 Jan 2025 16:24:46 GMT)
  • 多言語でのInstruction Followingベンチマーク、「mFollowIR is built on top of the TREC NeuCLIR collections and spans the Persian, Chinese, and Russian languages.」
  • リポジトリはGitHub – orionw/FollowIR: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructionsとのことだが、マルチリンガル版はまだアップロードされていない?

BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation

  • BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.5]
    このデータセットは、まず英語以外の言語で手作りされている。 それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
    論文  参考訳(メタデータ)   (Thu, 06 Feb 2025 18:56:37 GMT)
  • 翻訳用ベンチマーク、「Non-English-centric focus. Source-BOUQuET is handcrafted by proficient speakers of French, German, Hindi, Indonesian, Mandarin Chinese, Russian, and Spanish.」というのが特徴的
  • プロジェクトサイトはBouquet – a Hugging Face Space by facebook

近い報告として文書レベルのデータセットも提案されていた。

  • DOLFIN — Document-Level Financial test set for Machine Translation [5.3]
    文書レベル機械翻訳(MT)専用のテストセットを提案する。 データセットは、専門の財務文書から構築される。 テストセットは5つの言語ペアに対する1950年の平均的なアライメントセクションで構成されている。
    論文  参考訳(メタデータ)   (Wed, 05 Feb 2025 10:30:40 GMT)
  • 「en、fr、es、it、de」が対象、リポジトリはLinguaCustodia/dolfin · Datasets at Hugging Face