A Survey of Vibe Coding with Large Language Models

  • A Survey of Vibe Coding with Large Language Models [93.9]
    視覚符号化(Vibe Coding)は、開発者が成果観察を通じてAI生成の実装を検証する開発手法である。 変革の可能性にもかかわらず、この創発的パラダイムの有効性は未解明のままである。 この調査は、大規模な言語モデルによるVibe Codingの総合的かつ体系的なレビューを初めて提供する。
    論文  参考訳(メタデータ)   (Tue, 14 Oct 2025 11:26:56 GMT)
  • 「a novel development methodology termed “Vibe Coding” where developers validate AI-generated implementations through outcome observation rather than line-by- line code comprehension.」とVibe codingのサーベイ。。。
  • リポジトリはGitHub – YuyaoGe/Awesome-Vibe-Coding

通常の(?)ソフトウェアエンジニアリングのサーベイも出ていた。

  • A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [54.9]
    本調査は, LLMを利用したソフトウェア工学の総合的解析を初めて行ったものである。 我々は150以上の最近の論文を分析し、2つの主要な次元にまたがる包括的分類に分類する。 我々の分析は、この分野が単純なプロンプトエンジニアリングから複雑なエージェントシステムへとどのように進化してきたかを明らかにする。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 06:56:50 GMT)
  • software engineering + LLM based agentsのサーベイ

Prompts as Software Engineering Artifacts: A Research Agenda and Preliminary Findings

  • Prompts as Software Engineering Artifacts: A Research Agenda and Preliminary Findings [39.4]
    この研究プログラムは、ソフトウェア工学における現在の急進的な実践、課題、および影響要因を特徴づける。 我々は6カ国から74人のソフトウェア専門家を対象に,現在の迅速な実践と課題について調査を行った。 プロンプトは、試行錯誤によって洗練され、滅多に再利用されず、標準化されたプラクティスよりも個々の実践者が形作ることが多い。
    論文  参考訳(メタデータ)   (Mon, 22 Sep 2025 09:08:29 GMT)
  • ソフトウェア工学の観点から見たプロンプトの整理、「The findings reveal that prompt usage in SE is largely ad-hoc: prompts are often refined through trial-and-error, rarely reused, and shaped more by individual heuristics than standardized practices.」は直観とも整合的。だが問題は大有り。
  • データ等はPrompts as Software Engineering Artifacts: A Research Agenda and Preliminary Findingsに存在。

Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol 

  • Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.8]
    大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。 その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。 本稿では,LLMアプリケーションを3層アーキテクチャに分解する:システムシェル層、プロンプトオーケストレーション層、およびLLM推論コア
    論文  参考訳(メタデータ)   (Thu, 28 Aug 2025 13:00:28 GMT)
  • LLMを用いたソフトウェアに対するテストのサーベイ
  • conclusionに「A key insight is that LLM application testing is neither a mere extension of traditional software testing nor a straightforward application of AI-security techniques.」とある通り、LLM活用のソフトウェアは動的・確率的な動作にならざるを得ないためテスト手法はかなり変わるよう。

SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

  • SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.7]
    SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。 SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
    論文  参考訳(メタデータ)   (Wed, 16 Jul 2025 17:05:17 GMT)
  • パフォーマンス最適化能力を測るベンチマークの提案。Claude-4-sonnet > Gemini-2.5-pro > OpenAI-o3ではあるものの全体的に厳しい結果。
  • プロジェクトサイトはSWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

Training Software Engineering Agents and Verifiers with SWE-Gym 

  • Training Software Engineering Agents and Verifiers with SWE-Gym [89.6]
    SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。 SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
    論文  参考訳(メタデータ)   (Mon, 30 Dec 2024 18:15:39 GMT)
  • ソフトウェアエンジニアリング用エージェント開発のための環境の提案、および、高性能なエージェントの開発。o3で圧倒的な結果を見た後ではあるが、「Through extensive experiments, we demonstrate that SWE-Gym enables both agent and verifier models to achieve significant improvements in resolving complex software tasks. Our findings highlight the scalability of these approaches, revealing potential for continuous performance gains with increased compute.」とエージェント的動作の有効性は高い。
  • リポジトリはGitHub – SWE-Gym/SWE-Gym

Agents in Software Engineering: Survey, Landscape, and Vision 

Large Language Model-Based Agents for Software Engineering: A Survey 

The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers by Zheyuan (Kevin) Cui, Mert Demirer, Sonia Jaffe, Leon Musolff, Sida Peng, Tobias Salz :: SSRN
「Though each separate experiment is noisy, combined across all three experiments and 4,867 software developers, our analysis reveals a 26.08% increase (SE: 10.3%) in the number of completed tasks among developers using the AI tool.」という報告もあり、ソフトウェアエンジニアリングにおけるAI活用はどんどん進んでいくのだろうか。

Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

  • Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.9]
    大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。 専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。 実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
    論文  参考訳(メタデータ)   (Tue, 13 Aug 2024 17:50:28 GMT)
  • 様々なところで研究開発が進む、ソフトウエア開発に関する自立型エージェント。本件はSalesforceの研究で「DEI aims to harness these varied skills to tackle a broader range of problems more effectively with a multi-agent ensemble system and a re-ranking pipeline」というアプローチ(DEI =Diversity Empowers Intelligence )
  • 標準的ベンチマークが確立すると研究開発や分析が高速に進む。。。
  • リポジトリはSalesforce Research DEI Agents (salesforce-research-dei-agents.github.io)

From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future

  • From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.6]
    本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。 特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。 我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
    論文  参考訳(メタデータ)   (Mon, 05 Aug 2024 14:01:15 GMT)
  • LLMを用いたソフトウエア工学に関するサーベイ。エージェントにもフォーカスしている。
  • 「The analysis revealed that the emergence of LLM-based agents has led to extensive research and applications across various software engineering topics, demonstrating different emphases compared to traditional LLMs in terms of tasks, benchmarks, and evaluation metrics.」と結論し、Agentの有効性を示唆していそう。(しかしtraditional LLMsって・・・)

AIベースシステムのソフトウェアエンジニアリング

  • Software Engineering for AI-Based Systems: A Survey [8.6]
    AIベースのシステムの構築、運用、保守のためのソフトウェアエンジニアリングのアプローチに関する合成知識は限られています。 AIベースのシステムのためのSEは、2018年以来、研究の2/3以上が出版されている新興研究領域です。 AIベースのシステムの最も研究された特性は信頼性と安全性です。
    論文  参考訳(メタデータ)   (Wed, 5 May 2021 11:22:08 GMT)
    • AIを組み込んだソフトウェアに対するソフトウェアエンジニアリングのサーベイ。50ページ超と長め。