CodeAgent

  • CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [44.0]
    大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。 私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。 我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
    論文  参考訳(メタデータ)   (Sun, 14 Jan 2024 18:12:03 GMT)
  • 単純なコード生成ではなく、リポジトリレベルでコードを作成する研究
  • 当然ながら(?)高難度でエージェント的な動きが不可欠、今はかなり難しいタスク。この手の研究にトライしようと思えるようになったことに進化を感じる。
  • リポジトリはhttps://github.com/zkcpku/CodeAgentとのこと

DebugBench

  • DebugBench: Evaluating Debugging Capability of Large Language Models [89.1]
    DebugBench – LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。 ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 11:48:36 GMT)
  • デバッグ性能を評価する大規模なベンチマーク
  • 「The experimental results reveal that while closed-source models are less effective compared to human performance, open-source models struggle to yield efficient outcomes in debugging tasks.」という結果で既存のOSSモデルはゼロショットでのデバッグができず、GPT-4でも十分とはいいがたい結果のよう。
  • リポジトリはthunlp/DebugBench: The repository for paper “DebugBench: “Evaluating Debugging Capability of Large Language Models”. (github.com)

Leveraging Print Debugging to Improve Code Generation in Large Language Models

  • Leveraging Print Debugging to Improve Code Generation in Large Language Models [63.6]
    大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。 しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。 そこで本稿では,LLM のデバッグを “print debugging” 手法でガイドする,コンテキスト内学習手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 10 Jan 2024 18:37:59 GMT)
  • LLMを用いたコード生成時にデバッグ用のprintを埋め込んでもらうと性能が上がるという報告。CausalLMの動きから考えて妥当なようにも思うし、不思議なようにも思う。

MoTCoder: Modular-of-Thought Coder

A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends

  • A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends [30.8]
    一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。 コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。 現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
    論文  参考訳(メタデータ)   (Fri, 17 Nov 2023 07:55:16 GMT)
  • LLMでのコード生成に関するサーベイ
  • ものすごく色々あるというのと、表4のPerformance of LLMs in HumanEval Benchmarkのような比較表がとても参考になる

Can Programming Languages Boost Each Other via Instruction Tuning?

  • Can Programming Languages Boost Each Other via Instruction Tuning? [31.2]
    本稿では,コード大言語モデルの微調整段階において,プログラミング言語が相互に強化できるかどうかを検討する。StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の実験を行います。 結果は、プログラミング言語が互いに著しく改善できることを示しています。
    論文  参考訳(メタデータ)   (Thu, 31 Aug 2023 15:53:51 GMT)
  • 異なるプログラミング言語に関するfine tuningが他のプログラミング言語のコード生成に良い影響を与えるかを検証した論文。結果は効果がある。
  • 「CODEM-Python 15B trained on Python is able to increase Java by an absolute 17.95% pass@1 on HumanEval-X.」はまぁ分かるとして「 CODEM-HTML 7B trained on the HTML corpus can improve Java by an absolute 15.24% pass@1.」は不思議。結果を見るとなんとなく近い言語がより強化されているように見える気はする。
  • リポジトリはGitHub – NL2Code/CodeM

PanGu-Coder2

  • PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.5]
    本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。 このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
    論文  参考訳(メタデータ)   (Thu, 27 Jul 2023 15:28:29 GMT)
  • 大規模言語モデルをコード生成用にチューニングするRRTF (Rank Responses to align Test & Teacher Feedback)の提案、HumanEvalで優れた性能、同規模のWizardCoder以上

Textbooks Are All You Need

  • Textbooks Are All You Need [46.8]
    phi-1はトランスフォーマーベースのモデルで、1.3Bパラメータを持ち、8A100で4日間訓練された。 phi-1はHumanEvalで50.6%、MBPPで55.5%の精度を達成した。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 16:14:25 GMT)
  • 教科書品質のデータ(6B)+GPT-3.5が出力した品質の高いテキスト(1B)を用いて、1.3Bパラメータ(使用計算リソース 8 GPU * 4 days)という比較的小型で優れた性能を持つモデルが構築できたとのこと
  • タスクがコード生成かつPythonと特化されている点に注意が必要だが、品質の高いデータの重要性が分かる報告。パラメータは小さめと言いつつ、パラメータ拡大が品質向上に効果がありそうに見える。

MarioGPT

  • MarioGPT: Open-Ended Text2Level Generation through Large Language Models [9.9]
    タイルベースのゲームレベルを生成するために訓練された細調整GPT2モデルであるMarioGPTを紹介する。 我々は,MarioGPTが多様なレベルを生成できるだけでなく,制御可能なレベル生成のためにテキストをプロンプできることを示す。
    論文  参考訳(メタデータ)   (Sun, 12 Feb 2023 19:12:24 GMT)
  • Text2Level Generationという名称のテキストからのゲーム面の生成。これを生成してみようと思うのが面白い。
  • (割とどうでもよいが)内部的にはテキストを合成しているのでテキスト生成にカテゴライズするのが良いのか、プログラムのソースコード相当と考えてコード自動生成とするか悩ましい。

On the Structural Generalization in Text-to-SQL

  • On the Structural Generalization in Text-to-SQL [36.6]
    データベーススキーマ(DS)の構造的多様性について検討する。 同じ入力問題に直面して、DSが別の構造となると、ターゲットSQLはおそらく異なる方法で表現される。 本稿では,テキストからsqlへのタスクの構造的一般化に関する深い議論を行う。実験では, 十分に訓練されたテキスト-SQLモデルの評価において, 構造一般化に関する現在の研究の限界が示される。 包括的分析によると、実際的な理由は(NL, SQL)パターンの過剰適合である。
    論文  参考訳(メタデータ)   (Thu, 12 Jan 2023 02:52:51 GMT)
  • 現在のText-to-SQLのデータセットがテンプレート化されすぎていて汎化性能を測るには適切ではなく、overfittingが生じているとの指摘。