Execution-based Evaluation for Data Science Code Generation Models

Execution-based Evaluation for Data Science Code Generation Models [98.0]
データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。 ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
論文参考訳（メタデータ） (Thu, 17 Nov 2022 07:04:11 GMT)
データサイエンスの問題を解くためのコード生成ベンチマークの提案。より実用的なタスク（＆評価）で面白い。
生成されたコードの近さとアウトプットの近さには距離があるのは直感通りとして、Codeexがコード的には遠いがアウトプットではまずまずの結果を出している点が興味深い。意味まで理解しているっぽい動き。
https://github.com/Jun-jie-Huang/ExeDSがリポジトリとのことだが、現時点では404

コメントを残す

コメントを残す コメントをキャンセル