- Measuring Coding Challenge Competence With APPS [54.2]
コード生成のベンチマークであるAPPSを紹介する。 私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 20 May 2021 17:58:42 GMT)- プログラミングの自動化(コード自動生成)を目指した論文、ベンチマークデータセット
- GPT-NEOは一定数の問題を解いたようで今後の発展が期待される。