- MigrationBench: Repository-Level Code Migration Benchmark from Java 8 [18.6]
MigrationBenchは、Java 8 ドルから最新の長期サポート (LTS) バージョン (Java 17、21 ) への移行のための包括的なベンチマークである。 この課題に対する大規模言語モデル(LLM)の厳密で標準化された評価を容易にするための総合的な評価フレームワークを提供する。 Claude-3.5-Sonnet-v2 で選択されたサブセットに対して、SD-Feedback は、それぞれ、最小と最大のマイグレーションに対して、62.33%$と27.33%$成功率(pass@1)を達成している。
論文 参考訳(メタデータ) (Mon, 19 May 2025 16:10:21 GMT) - バージョン間移植に焦点を当てたベンチマークの提案。実用上大事なタスク。「We demonstrate the feasibility of code migration from Java 8 to 17 through a deterministic workflow with SD-Feedback, and show preliminary results with promising efficacy for both minimal (62.33%) and maximal (27.33%) migration for the selected subset with Claude-3.5-Sonnet-v2.」とのこと。
- リポジトリはGitHub – amazon-science/MigrationBench
タグ: ベンチマーク
lmgame-Bench: How Good are LLMs at Playing Games? / TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games
- TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games [9.2]
本稿では,Large Language Models(LLM)の推論能力を評価するための新しいフレームワークとデータセットであるTurnaboutLLMを紹介する。 このフレームワークは、長い物語の文脈の中で、証言と証拠の間の矛盾を識別するLLMを処理します。 提案手法は,12種類のLLMをデータセット上で評価し,導出的推論を向上するための一般的な戦略の限界を示唆した。
論文 参考訳(メタデータ) (Wed, 21 May 2025 16:22:32 GMT) - 逆転裁判やダンガンロンパを使ったLLMの性能評価ベンチマークの提案。攻略サイトなどがLeakになっていそうだが、総合力が試されるベンチマークではあると思う。LRMが優勢な結果(まぁそうだろうと思う)。
- リポジトリはGitHub – zharry29/turnabout_llm
- lmgame-Bench: How Good are LLMs at Playing Games? [60.0]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。 我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文 参考訳(メタデータ) (Wed, 21 May 2025 06:02:55 GMT) - こちらもゲームを用いたベンチマーク・評価。「We study the major challenges in using popular video games to evaluate modern LLMs and find that directly dropping LLMs into games cannot make an effective evaluation, for three reasons: brittle vision perception, prompt sensitivity, and potential data contamination.」とLeakの課題が大きいことも指摘している。
- リポジトリはGitHub – lmgame-org/GamingAgent: Computer gaming agents that run on your PC and laptops.下のhttps://github.com/lmgame-org/GamingAgent/lmgame-benchとのことだが、現状では404
Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge
- Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.8]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。 開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。 この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (Mon, 12 May 2025 09:04:16 GMT) - Audio Question Answeringベンチマーク、DCASE 2025 Challengeの説明。audio captioningタスクより一歩進んだもので重要性が増すタスクだと思う。
- リポジトリはPeacefulData/2025_DCASE_AudioQA_Official · Datasets at Hugging Face
BAT: Benchmark for Auto-bidding Task
- BAT: Benchmark for Auto-bidding Task [67.6]
本稿では,最も普及している2種類のオークション形式を含むオークションベンチマークを提案する。 我々は,新しいデータセットに基づいて,一連の堅牢なベースラインを実装した。 このベンチマークは、研究者や実践者が革新的なオートバイディングアルゴリズムを開発し、洗練するための、ユーザフレンドリで直感的なフレームワークを提供する。
論文 参考訳(メタデータ) (Tue, 13 May 2025 12:12:34 GMT) - 「To address this deficiency, we present an auction benchmark en- compassing the two most prevalent auction formats. We implement a series of robust baselines on a novel dataset, addressing the most salient Real-Time Bidding (RTB) problem domains: budget pacing uniformity and Cost Per Click (CPC) constraint optimization.」と珍しいベンチマーク
- リポジトリはGitHub – avito-tech/bat-autobidding-benchmark
Benchmarking LLMs’ Swarm intelligence
- Benchmarking LLMs’ Swarm intelligence [50.5]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。 既存のベンチマークは、エージェントが不完全な時間的情報を扱うときに生じる分散調整のユニークな課題を完全には捉えないことが多い。 分散エージェントとして機能するLLMのSwarmインテリジェンス能力を体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
論文 参考訳(メタデータ) (Wed, 07 May 2025 12:32:01 GMT) - 「we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks (Pursuit, Synchronization, For- aging, Flocking, Transport) within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k × k view) and local communication.」というベンチマークの提案。
- リポジトリはGitHub – RUC-GSAI/YuLan-SwarmIntell: 🐝 SwarmBench: Benchmarking LLMs’ Swarm Intelligence
SITE: towards Spatial Intelligence Thorough Evaluation
- SITE: towards Spatial Intelligence Thorough Evaluation [121.1]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。 ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (Thu, 08 May 2025 17:45:44 GMT) - Spatial Intelligenceのベンチマーク。GPT-4oでも人間との差が大きい。(そしてInternVL-2.5-8Bのスコアが意外と高い)
- プロジェクトサイトはSITE: towards Spatial Intelligence Thorough Evaluation
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency
- Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.3]
視覚的依存を明示する多モーダル数学的推論のための総合的なベンチマークであるVCBENCHを紹介する。 VCBENCHには6つの認知領域に1,720の問題がある。 我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
論文 参考訳(メタデータ) (Tue, 29 Apr 2025 03:45:30 GMT) - Visionに依存するよう設計された数学推論ベンチマークの提案
- リポジトリはBenchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks
- Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.7]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。 この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (Sat, 26 Apr 2025 07:48:52 GMT) - ベンチマークに関するサーベイ。「Fig6 Illustration of capability-based benchmark taxonomy involving: knowledge, reasoning, instruction following, multimodal, and safety.」が視覚的にとても分かりやすい。
- リポジトリはGitHub – ALEX-nlp/Benchmark-of-core-capabilities、
On Path to Multimodal Generalist: General-Level and General-Bench
- On Path to Multimodal Generalist: General-Level and General-Bench [154.0]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。 フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。 既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文 参考訳(メタデータ) (Wed, 07 May 2025 17:59:32 GMT) - 「This leads to a critical question: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI?」に対する評価フレームワーク。自動運転のような大きく5段階のレベル設定を行っている。現時点では「Our evaluation of over 100 existing top-performing LLM/MLLM systems has uncovered critical insights into their capabilities and rankings as multimodal generalists. The most notable finding is that most MLLMs lack the cross-task or cross-modal synergy ability required for higher-level classifications, with even advanced models like GPT-4V and GPT-4o not achieving top ranks.」とのことだが…
- プロジェクトサイトはPath to Multimodal Generalist、リーダーボードはPath to Multimodal Generalist
下記サーベイも注目
- Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.5]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。 人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。 大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (Thu, 08 May 2025 03:35:23 GMT) - リポジトリはGitHub – HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models: The development and future prospects of multimodal reasoning models.
Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning
- Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.7]
Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。 Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
論文 参考訳(メタデータ) (Thu, 24 Apr 2025 12:32:13 GMT) - 「We introduce Plasticine, the first open-source framework for benchmarking plasticity optimization in deep RL.」というベンチマーク。
- 「plasticity loss, a phenomenon in which neural networks in RL agents gradually lose their ability to adapt and incorporate new information as training progresses (Dohare et al , 2024; Klein et al , 2024), thus significantly impeding the development of truly lifelong learning agents (Lyle and Pascanu, 2024).」
- リポジトリはGitHub – RLE-Foundation/Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning.