SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

  • SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.7]
    SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。 SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
    論文  参考訳(メタデータ)   (Wed, 16 Jul 2025 17:05:17 GMT)
  • パフォーマンス最適化能力を測るベンチマークの提案。Claude-4-sonnet > Gemini-2.5-pro > OpenAI-o3ではあるものの全体的に厳しい結果。
  • プロジェクトサイトはSWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です