PaperBench: Evaluating AI’s Ability to Replicate AI Research

PaperBench: Evaluating AI’s Ability to Replicate AI Research [3.5]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。 PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文参考訳（メタデータ） (Wed, 02 Apr 2025 15:55:24 GMT)
OpenAIによる「PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research.」の提案。
リポジトリはGitHub – openai/preparedness: Releases from OpenAI Preparedness

コメントを残す

コメントを残す コメントをキャンセル