ReCode: Robustness Evaluation of Code Generation Models

  • ReCode: Robustness Evaluation of Code Generation Models [90.1]
    コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。 ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。 ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
    論文  参考訳(メタデータ)   (Tue, 20 Dec 2022 14:11:31 GMT)
  • コード生成の頑健性を評価するためのベンチマーク
  • GitHub – amazon-science/recode

A Survey on Natural Language Processing for Programming 

  • A Survey on Natural Language Processing for Programming [42.9]
    全スペクトルから関連する著作を体系的にレビューする文献は存在しない。 本論文は, 初期の演能モデルから最新の競争レベルモデルまで, 既存の研究を包括的に調査する。 この論文のもう1つの利点はテクニックカテゴリの完全性であり、将来の作品の配置と比較を簡単に行うことができる。
    論文  参考訳(メタデータ)   (Mon, 12 Dec 2022 08:51:30 GMT)
  • 自然言語処理をプログラミングに応用する取り組みのサーベイ
  • 最近は生成がよくニュースになるが、それ以外にも様々なタスクがあることが分かる

ERNIE-Code

  • ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.6]
    同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。 近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
    論文  参考訳(メタデータ)   (Tue, 13 Dec 2022 17:21:44 GMT)
  • マルチリンガルなcode-to-text, text-to-code, code-to-code, text-to-text
  • translate-trainとzero-shotの比較も興味深い。

Execution-based Evaluation for Data Science Code Generation Models

  • Execution-based Evaluation for Data Science Code Generation Models [98.0]
    データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。 ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。 表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 07:04:11 GMT)
  • データサイエンスの問題を解くためのコード生成ベンチマークの提案。より実用的なタスク(&評価)で面白い。
  • 生成されたコードの近さとアウトプットの近さには距離があるのは直感通りとして、Codeexがコード的には遠いがアウトプットではまずまずの結果を出している点が興味深い。意味まで理解しているっぽい動き。
  • https://github.com/Jun-jie-Huang/ExeDSがリポジトリとのことだが、現時点では404

CodeT: テストケース生成&コード生成

  • CodeT: Code Generation with Generated Tests [49.6]
    テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。 我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
    論文  参考訳(メタデータ)   (Thu, 21 Jul 2022 10:18:37 GMT)
    • コードを自動生成する際、テストケースも生成、2つを使ってベストなソリューションを得る手法の提案。HumanEval でSoTAとのこと。

DocCoder: ドキュメントを利用したコード生成

CodeGen: 対話によるプログラム自動生成

  • A Conversational Paradigm for Program Synthesis [110.9]
    本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。 私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。 本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 17:10:30 GMT)

CodeT5: コード理解と生成の両方をサポートする統一フレームワーク

  • CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation [36.5]
    我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。 我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
    論文  参考訳(メタデータ)   (Thu, 2 Sep 2021 12:21:06 GMT)
    • T5のアーキテクチャをプログラムコード用に拡張(展開)したモデルを提案、PLBARTなど先端モデルと比べても優れた性能を出したとのこと。
    • リポジトリはhttps://github.com/salesforce/CodeT5

GPTによるコードの生成

  • Measuring Coding Challenge Competence With APPS [54.2]
    コード生成のベンチマークであるAPPSを紹介する。 私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 20 May 2021 17:58:42 GMT)
    • プログラミングの自動化(コード自動生成)を目指した論文、ベンチマークデータセット
    • GPT-NEOは一定数の問題を解いたようで今後の発展が期待される。