DebugBench

  • DebugBench: Evaluating Debugging Capability of Large Language Models [89.1]
    DebugBench – LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。 ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 11:48:36 GMT)
  • デバッグ性能を評価する大規模なベンチマーク
  • 「The experimental results reveal that while closed-source models are less effective compared to human performance, open-source models struggle to yield efficient outcomes in debugging tasks.」という結果で既存のOSSモデルはゼロショットでのデバッグができず、GPT-4でも十分とはいいがたい結果のよう。
  • リポジトリはthunlp/DebugBench: The repository for paper “DebugBench: “Evaluating Debugging Capability of Large Language Models”. (github.com)

FLAME: A small language model for spreadsheet formulas

  • FLAME: A small language model for spreadsheet formulas [12.4]
    本稿では,Excel の式に基づいて訓練された T5 ベースのモデル FLAME について述べる。 スケッチの重複を利用してトレーニングデータセットをキュレートし、Excel固有の式トークンを導入し、マスク付きスパン予測のドメイン固有のバージョンとノイズの多い自動エンコーディングを事前学習目的として使用する。 FLAME (60M) は、Codex-Davinci (175B)、Codex-Cushman (12B)、CodeT5 (220M) など、より大型のモデルよりも10セット中6セットで優れている。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 17:29:43 GMT)
  • Excelを対象にしたプログラム(?)用言語モデル。大規模言語モデルを用いた実装にくべて極めて小さなパラメータ数、データで構築を行っているにもかかわらずパフォーマンスは十分(6/10タスクで他を上回る)とのこと
  • 巨大モデル全盛ではあるが、十分に使えるものを作るという点で興味深い。(FLAME自体小規模というにはやや抵抗が無いわけではないが。。。)

ソースコードのNaturalizing

  • NatGen: Generative pre-training by “Naturalizing” source code [18.4]
    我々は,ソースコードの「成熟化」という新たな事前学習目標を提案する。 自然言語とは異なり、コードのバイモーダルでデュアルチャネルの性質により、意味論的に等価なコードを大規模に生成することができます。 私たちは、CodeT5に匹敵する最先端のパフォーマンスを達成するために、3つの生成ソフトウェアエンジニアリングタスクでモデルを微調整します。
    論文  参考訳(メタデータ)   (Wed, 15 Jun 2022 15:08:29 GMT)
    • ソースコードを同等でより自然なスタイルに変換するよう事前学習することでCodeT5より優れた結果を達成とのこと。
      • 汚いコードを綺麗にしてくれるようなモデルを作るときにも役立ちそうで非常に面白い。
    • リポジトリはGitHub – natgen-team/NatGen

Deep Learningによるソースコード理解のサーベイ

  • A Survey of Deep Learning Models for Structural Code Understanding [21.7]
    本稿では,コードデータから形成される構造について概観する。 近年のコード理解モデルは,シーケンスベースモデルとグラフベースモデルという2つのグループに分類されている。 メトリクスやデータセット、下流タスクも導入しています。
    論文  参考訳(メタデータ)   (Tue, 3 May 2022 03:56:17 GMT)
    • ソースコード分析へのDeepLearning活用についての幅広いサーベイ。

CoCoSoDa: Code search with multimodal Contrastive learning and Soft Data augmentation

  • Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.1]
    コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。 我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
    論文  参考訳(メタデータ)   (Fri, 8 Apr 2022 03:03:48 GMT)
    • コードスニペットの検索タスクにおいて優れた性能を達成、とのことだがマルチモーダルの意味は自然言語とソースコードということなのだろうか。。

SCRIPT(StruCtural RelatIve Position): ソースコードの要約

  • Source Code Summarization with Structural Relative Position Guided Transformer [19.8]
    ソースコードの要約は、プログラミング言語の簡潔で明確な自然言語記述を生成することを目的としている。 近年の取り組みは、Transformerなどのニューラルネットワークにコードの構文構造を組み込むことに重点を置いている。 SCRIPTと呼ばれる構造相対位置案内変換器を提案する。
    論文  参考訳(メタデータ)   (Mon, 14 Feb 2022 07:34:33 GMT)
    • ソースコードの要約(ソースコードに対して短い自然言語の記述を生成)にTransformer型の構造を適用、優れた性能を達成。
      • (略称は無理やり感があるが)有用な研究、様々なアプローチがあり興味深い。
    • リポジトリはGitHub – GoneZ5/SCRIPT

ソースコード分析への機械学習活用のサーベイ

  • A Survey on Machine Learning Techniques for Source Code Analysis [14.1]
    ソースコード解析に応用された機械学習の領域における現在の知識を要約することを目的としている。 そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,研究364点を同定した。
    論文  参考訳(メタデータ)   (Mon, 18 Oct 2021 20:13:38 GMT)
    • 本文39ページ、引用数369と大規模なサーベイ。
    • ソフトウェアテスト、ソースコード表現、ソースコードの品質分析、プログラム合成、コード補完、リファクタリング、コード要約、脆弱性解析などソースコード分析における機械学習の利用とそのアプローチが把握できる。