コード自動生成 – ページ 3 – arXiv最新論文の紹介

DebugBench

DebugBench: Evaluating Debugging Capability of Large Language Models [89.1]
DebugBench – LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 11:48:36 GMT)
デバッグ性能を評価する大規模なベンチマーク
「The experimental results reveal that while closed-source models are less effective compared to human performance, open-source models struggle to yield efficient outcomes in debugging tasks.」という結果で既存のOSSモデルはゼロショットでのデバッグができず、GPT-4でも十分とはいいがたい結果のよう。
リポジトリはthunlp/DebugBench: The repository for paper “DebugBench: “Evaluating Debugging Capability of Large Language Models”. (github.com)

Leveraging Print Debugging to Improve Code Generation in Large Language Models

Leveraging Print Debugging to Improve Code Generation in Large Language Models [63.6]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。そこで本稿では,LLM のデバッグを “print debugging” 手法でガイドする,コンテキスト内学習手法を提案する。
論文参考訳（メタデータ） (Wed, 10 Jan 2024 18:37:59 GMT)
LLMを用いたコード生成時にデバッグ用のprintを埋め込んでもらうと性能が上がるという報告。CausalLMの動きから考えて妥当なようにも思うし、不思議なようにも思う。

MoTCoder: Modular-of-Thought Coder

MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [60.5]
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (Tue, 26 Dec 2023 08:49:57 GMT)
コード生成時にサブモジュールのヘッダー＋docstringの生成→実装部分の生成という段階を踏む手法の提案。同一パラメータ数（15B）でWizardCoderより優れているとのこと。
リポジトリはdvlab-research/MoTCoder: This is the official code repository of MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks. (github.com)

A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends

A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends [30.8]
一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
論文参考訳（メタデータ） (Fri, 17 Nov 2023 07:55:16 GMT)
LLMでのコード生成に関するサーベイ
ものすごく色々あるというのと、表４のPerformance of LLMs in HumanEval Benchmarkのような比較表がとても参考になる

Can Programming Languages Boost Each Other via Instruction Tuning?

Can Programming Languages Boost Each Other via Instruction Tuning? [31.2]
本稿では,コード大言語モデルの微調整段階において,プログラミング言語が相互に強化できるかどうかを検討する。StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の実験を行います。結果は、プログラミング言語が互いに著しく改善できることを示しています。
論文参考訳（メタデータ） (Thu, 31 Aug 2023 15:53:51 GMT)
異なるプログラミング言語に関するfine tuningが他のプログラミング言語のコード生成に良い影響を与えるかを検証した論文。結果は効果がある。
「CODEM-Python 15B trained on Python is able to increase Java by an absolute 17.95% pass@1 on HumanEval-X.」はまぁ分かるとして「 CODEM-HTML 7B trained on the HTML corpus can improve Java by an absolute 15.24% pass@1.」は不思議。結果を見るとなんとなく近い言語がより強化されているように見える気はする。
リポジトリはGitHub – NL2Code/CodeM

PanGu-Coder2

PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.5]
本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
論文参考訳（メタデータ） (Thu, 27 Jul 2023 15:28:29 GMT)
大規模言語モデルをコード生成用にチューニングするRRTF (Rank Responses to align Test & Teacher Feedback)の提案、HumanEvalで優れた性能、同規模のWizardCoder以上

Textbooks Are All You Need

Textbooks Are All You Need [46.8]
phi-1はトランスフォーマーベースのモデルで、1.3Bパラメータを持ち、8A100で4日間訓練された。 phi-1はHumanEvalで50.6%、MBPPで55.5%の精度を達成した。
論文参考訳（メタデータ） (Tue, 20 Jun 2023 16:14:25 GMT)
教科書品質のデータ（6B）＋GPT-3.5が出力した品質の高いテキスト（1B）を用いて、1.3Bパラメータ（使用計算リソース 8 GPU * 4 days）という比較的小型で優れた性能を持つモデルが構築できたとのこと
タスクがコード生成かつPythonと特化されている点に注意が必要だが、品質の高いデータの重要性が分かる報告。パラメータは小さめと言いつつ、パラメータ拡大が品質向上に効果がありそうに見える。

MarioGPT

MarioGPT: Open-Ended Text2Level Generation through Large Language Models [9.9]
タイルベースのゲームレベルを生成するために訓練された細調整GPT2モデルであるMarioGPTを紹介する。我々は,MarioGPTが多様なレベルを生成できるだけでなく,制御可能なレベル生成のためにテキストをプロンプできることを示す。
論文参考訳（メタデータ） (Sun, 12 Feb 2023 19:12:24 GMT)
Text2Level Generationという名称のテキストからのゲーム面の生成。これを生成してみようと思うのが面白い。
（割とどうでもよいが）内部的にはテキストを合成しているのでテキスト生成にカテゴライズするのが良いのか、プログラムのソースコード相当と考えてコード自動生成とするか悩ましい。

On the Structural Generalization in Text-to-SQL

On the Structural Generalization in Text-to-SQL [36.6]
データベーススキーマ(DS)の構造的多様性について検討する。同じ入力問題に直面して、DSが別の構造となると、ターゲットSQLはおそらく異なる方法で表現される。本稿では,テキストからsqlへのタスクの構造的一般化に関する深い議論を行う。実験では, 十分に訓練されたテキスト-SQLモデルの評価において, 構造一般化に関する現在の研究の限界が示される。包括的分析によると、実際的な理由は(NL, SQL)パターンの過剰適合である。
論文参考訳（メタデータ） (Thu, 12 Jan 2023 02:52:51 GMT)
現在のText-to-SQLのデータセットがテンプレート化されすぎていて汎化性能を測るには適切ではなく、overfittingが生じているとの指摘。

ReCode: Robustness Evaluation of Code Generation Models

ReCode: Robustness Evaluation of Code Generation Models [90.1]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (Tue, 20 Dec 2022 14:11:31 GMT)
コード生成の頑健性を評価するためのベンチマーク
GitHub – amazon-science/recode

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31