On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization
On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [55.0] 大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。 コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。 論文参考訳(メタデータ) (Tue, 22 Jul 2025 13:40:26 GMT)
コードの評価を対象としたLLM as a judgeの検証
「Our findings show that “small” LLMs struggle in judging tasks, with GPT-4-turbo being the model that achieves the best results. Still, even GPT-4-turbo frequently fails in assessing code correctness, while being a reliable judge of code summary quality.」とのこと。より新しいモデルでの結果が気になる。