SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.7]
SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。 SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
論文参考訳（メタデータ） (Wed, 16 Jul 2025 17:05:17 GMT)
パフォーマンス最適化能力を測るベンチマークの提案。Claude-4-sonnet > Gemini-2.5-pro > OpenAI-o3ではあるものの全体的に厳しい結果。
プロジェクトサイトはSWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

コメントを残す

コメントを残す コメントをキャンセル