ソースコード分析 – arXiv最新論文の紹介

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.4]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (Tue, 02 Dec 2025 17:14:33 GMT)
ソフトウェア開発におけるAI活用に関する包括的なサーベイ。
1ページ目の図が攻めている一方で納得感もある。

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [55.0]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (Tue, 22 Jul 2025 13:40:26 GMT)
コードの評価を対象としたLLM as a judgeの検証
「Our findings show that “small” LLMs struggle in judging tasks, with GPT-4-turbo being the model that achieves the best results. Still, even GPT-4-turbo frequently fails in assessing code correctness, while being a reliable judge of code summary quality.」とのこと。より新しいモデルでの結果が気になる。

EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking

EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.4]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。 EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文参考訳（メタデータ） (Tue, 18 Feb 2025 02:54:25 GMT)
「Equivalence checking, i.e., determining whether two programs produce identical outputs for all possible inputs」に関するベンチマーク。o3-miniが頭一つ抜けた性能。

ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation

ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [37.3]
コード翻訳は、ソフトウェア開発とメンテナンスプロセスにおいて重要な活動です。既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。コード翻訳に特化したLLMであるExeCoderを提案する。
論文参考訳（メタデータ） (Thu, 30 Jan 2025 16:18:52 GMT)
通常のコード生成とは問題が異なるコード翻訳に特化したLLMの提案。「The key idea of ExeCoder is to enhance the capabilities of LLMs in code translation by leveraging executability representations such as functional semantics, syntactic structure, and variable dependencies in code.」というアプローチ。DeepseekCoder-6.7b-instructをベースモデルとして商用APIを超える性能、SOTAを主張。
プロジェクトサイトはExeCoder: Empowering Large Language Models with Executability Representation for Code Translation

DebugBench

DebugBench: Evaluating Debugging Capability of Large Language Models [89.1]
DebugBench – LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 11:48:36 GMT)
デバッグ性能を評価する大規模なベンチマーク
「The experimental results reveal that while closed-source models are less effective compared to human performance, open-source models struggle to yield efficient outcomes in debugging tasks.」という結果で既存のOSSモデルはゼロショットでのデバッグができず、GPT-4でも十分とはいいがたい結果のよう。
リポジトリはthunlp/DebugBench: The repository for paper “DebugBench: “Evaluating Debugging Capability of Large Language Models”. (github.com)

FLAME: A small language model for spreadsheet formulas

FLAME: A small language model for spreadsheet formulas [12.4]
本稿では,Excel の式に基づいて訓練された T5 ベースのモデル FLAME について述べる。スケッチの重複を利用してトレーニングデータセットをキュレートし、Excel固有の式トークンを導入し、マスク付きスパン予測のドメイン固有のバージョンとノイズの多い自動エンコーディングを事前学習目的として使用する。 FLAME (60M) は、Codex-Davinci (175B)、Codex-Cushman (12B)、CodeT5 (220M) など、より大型のモデルよりも10セット中6セットで優れている。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 17:29:43 GMT)
Excelを対象にしたプログラム（？）用言語モデル。大規模言語モデルを用いた実装にくべて極めて小さなパラメータ数、データで構築を行っているにもかかわらずパフォーマンスは十分（6/10タスクで他を上回る）とのこと
巨大モデル全盛ではあるが、十分に使えるものを作るという点で興味深い。（FLAME自体小規模というにはやや抵抗が無いわけではないが。。。）

ソースコードのNaturalizing

NatGen: Generative pre-training by “Naturalizing” source code [18.4]
我々は,ソースコードの「成熟化」という新たな事前学習目標を提案する。自然言語とは異なり、コードのバイモーダルでデュアルチャネルの性質により、意味論的に等価なコードを大規模に生成することができます。私たちは、CodeT5に匹敵する最先端のパフォーマンスを達成するために、3つの生成ソフトウェアエンジニアリングタスクでモデルを微調整します。
論文参考訳（メタデータ） (Wed, 15 Jun 2022 15:08:29 GMT)
- ソースコードを同等でより自然なスタイルに変換するよう事前学習することでCodeT5より優れた結果を達成とのこと。
  - 汚いコードを綺麗にしてくれるようなモデルを作るときにも役立ちそうで非常に面白い。
- リポジトリはGitHub – natgen-team/NatGen

Deep Learningによるソースコード理解のサーベイ

A Survey of Deep Learning Models for Structural Code Understanding [21.7]
本稿では,コードデータから形成される構造について概観する。近年のコード理解モデルは,シーケンスベースモデルとグラフベースモデルという2つのグループに分類されている。メトリクスやデータセット、下流タスクも導入しています。
論文参考訳（メタデータ） (Tue, 3 May 2022 03:56:17 GMT)
- ソースコード分析へのDeepLearning活用についての幅広いサーベイ。

CoCoSoDa: Code search with multimodal Contrastive learning and Soft Data augmentation

Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.1]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (Fri, 8 Apr 2022 03:03:48 GMT)
- コードスニペットの検索タスクにおいて優れた性能を達成、とのことだがマルチモーダルの意味は自然言語とソースコードということなのだろうか。。

SCRIPT(StruCtural RelatIve Position): ソースコードの要約

Source Code Summarization with Structural Relative Position Guided Transformer [19.8]
ソースコードの要約は、プログラミング言語の簡潔で明確な自然言語記述を生成することを目的としている。近年の取り組みは、Transformerなどのニューラルネットワークにコードの構文構造を組み込むことに重点を置いている。 SCRIPTと呼ばれる構造相対位置案内変換器を提案する。
論文参考訳（メタデータ） (Mon, 14 Feb 2022 07:34:33 GMT)
- ソースコードの要約（ソースコードに対して短い自然言語の記述を生成）にTransformer型の構造を適用、優れた性能を達成。
  - （略称は無理やり感があるが）有用な研究、様々なアプローチがあり興味深い。
- リポジトリはGitHub – GoneZ5/SCRIPT

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31