- A Survey on Evaluating Large Language Models in Code Generation Tasks [30.3]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。 自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文 参考訳(メタデータ) (Thu, 29 Aug 2024 12:56:06 GMT) - 盛り上がってきているコード生成タスクについて、その評価手法をまとめたサーベイ
- 機械翻訳でも一般的な「Evaluation Based on Similarity」のほか、「Execution-Based Evaluation」、「 Feedback-Based Evaluation」などがあって興味深い。