PaperBench: Evaluating AI’s Ability to Replicate AI Research 

  • PaperBench: Evaluating AI’s Ability to Replicate AI Research [3.5]
    PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。 エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。 PaperBenchには8,316の個別の段階的なタスクが含まれている。
    論文  参考訳(メタデータ)   (Wed, 02 Apr 2025 15:55:24 GMT)
  • OpenAIによる「PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research.」の提案。
  • リポジトリはGitHub – openai/preparedness: Releases from OpenAI Preparedness

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です