Large Language Model Critics for Execution-Free Evaluation of Code Changes

Large Language Model Critics for Execution-Free Evaluation of Code Changes [5.2]
大規模言語モデル(LLM)は、ソフトウェアエンジニアリングタスクを自動化するための有望な方法を提供する。ビルド状況や時折のログ分析などを評価するための既存のメトリクスは、変更の質を評価するのに必要な情報を提供するには不十分で制限されています。本研究では,LLMをベースとした批判者に対して,コード変更の実行可能性に対する厳密で厳密な中間レベル/ステップレベルの,実行不要な評価プロキシを導出する設計を行った。
論文参考訳（メタデータ） (Tue, 28 Jan 2025 02:38:56 GMT)
「We introduce our test-centric framework utilizing isolated, test-aware LLM critics, which leverage a candidate patch against each associated test individually to predict whether the patch helps that test pass or not.」
リポジトリはGitHub – amazon-science/code-agent-eval: Implemental for the paper “Large Language Model Critics for Execution-Free Evaluation of Code Changes”

コメントを残す

コメントを残す コメントをキャンセル