- SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.7]
SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。 SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 17:05:17 GMT) - パフォーマンス最適化能力を測るベンチマークの提案。Claude-4-sonnet > Gemini-2.5-pro > OpenAI-o3ではあるものの全体的に厳しい結果。
- プロジェクトサイトはSWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?