コード自動生成 – ページ 2 – arXiv最新論文の紹介

On the Structural Generalization in Text-to-SQL

On the Structural Generalization in Text-to-SQL [36.6]
データベーススキーマ(DS)の構造的多様性について検討する。同じ入力問題に直面して、DSが別の構造となると、ターゲットSQLはおそらく異なる方法で表現される。本稿では,テキストからsqlへのタスクの構造的一般化に関する深い議論を行う。実験では, 十分に訓練されたテキスト-SQLモデルの評価において, 構造一般化に関する現在の研究の限界が示される。包括的分析によると、実際的な理由は(NL, SQL)パターンの過剰適合である。
論文参考訳（メタデータ） (Thu, 12 Jan 2023 02:52:51 GMT)
現在のText-to-SQLのデータセットがテンプレート化されすぎていて汎化性能を測るには適切ではなく、overfittingが生じているとの指摘。

ReCode: Robustness Evaluation of Code Generation Models

ReCode: Robustness Evaluation of Code Generation Models [90.1]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (Tue, 20 Dec 2022 14:11:31 GMT)
コード生成の頑健性を評価するためのベンチマーク
GitHub – amazon-science/recode

A Survey on Natural Language Processing for Programming

A Survey on Natural Language Processing for Programming [42.9]
全スペクトルから関連する著作を体系的にレビューする文献は存在しない。本論文は, 初期の演能モデルから最新の競争レベルモデルまで, 既存の研究を包括的に調査する。この論文のもう1つの利点はテクニックカテゴリの完全性であり、将来の作品の配置と比較を簡単に行うことができる。
論文参考訳（メタデータ） (Mon, 12 Dec 2022 08:51:30 GMT)
自然言語処理をプログラミングに応用する取り組みのサーベイ
最近は生成がよくニュースになるが、それ以外にも様々なタスクがあることが分かる

ERNIE-Code

ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.6]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文参考訳（メタデータ） (Tue, 13 Dec 2022 17:21:44 GMT)
マルチリンガルなcode-to-text, text-to-code, code-to-code, text-to-text
translate-trainとzero-shotの比較も興味深い。

Execution-based Evaluation for Data Science Code Generation Models

Execution-based Evaluation for Data Science Code Generation Models [98.0]
データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。 ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
論文参考訳（メタデータ） (Thu, 17 Nov 2022 07:04:11 GMT)
データサイエンスの問題を解くためのコード生成ベンチマークの提案。より実用的なタスク（＆評価）で面白い。
生成されたコードの近さとアウトプットの近さには距離があるのは直感通りとして、Codeexがコード的には遠いがアウトプットではまずまずの結果を出している点が興味深い。意味まで理解しているっぽい動き。
https://github.com/Jun-jie-Huang/ExeDSがリポジトリとのことだが、現時点では404

CodeT: テストケース生成＆コード生成

CodeT: Code Generation with Generated Tests [49.6]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (Thu, 21 Jul 2022 10:18:37 GMT)
- コードを自動生成する際、テストケースも生成、２つを使ってベストなソリューションを得る手法の提案。HumanEval でSoTAとのこと。

DocCoder: ドキュメントを利用したコード生成

DocCoder: Generating Code by Retrieving and Reading Docs [87.9]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文参考訳（メタデータ） (Wed, 13 Jul 2022 06:47:51 GMT)
- リファレンスを調べるかのように動作するコード自動生成
- リポジトリはGitHub – shuyanzhou/doccoder: Data and code for “DocCoder: Generating Code by Retrieving and Reading Code Docs”

CodeGen: 対話によるプログラム自動生成

A Conversational Paradigm for Program Synthesis [110.9]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文参考訳（メタデータ） (Mon, 28 Mar 2022 17:10:30 GMT)
- 対話によるコード自動生成。リポジトリのビデオを見るのが分かりやすいが、非常に未来を感じるデモになっている。
- リポジトリはGitHub – salesforce/CodeGen: CodeGen is an open-source model for program synthesis. Trained on TPU-v4. Competitive with OpenAI Codex.

CodeT5: コード理解と生成の両方をサポートする統一フレームワーク

CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation [36.5]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文参考訳（メタデータ） (Thu, 2 Sep 2021 12:21:06 GMT)
- T5のアーキテクチャをプログラムコード用に拡張（展開）したモデルを提案、PLBARTなど先端モデルと比べても優れた性能を出したとのこと。
- リポジトリはhttps://github.com/salesforce/CodeT5

GPTによるコードの生成

Measuring Coding Challenge Competence With APPS [54.2]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ）参考訳（全文） (Thu, 20 May 2021 17:58:42 GMT)
- プログラミングの自動化（コード自動生成）を目指した論文、ベンチマークデータセット
- GPT-NEOは一定数の問題を解いたようで今後の発展が期待される。

2024年5月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31