Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

  • Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.1]
    機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは、計画、分析、生成の3段階で動作する。 これは、最近リリースされたPaperBenchベンチマークで一貫して強みを示している。
    論文  参考訳(メタデータ)   (Thu, 24 Apr 2025 01:57:01 GMT)
  • 「(1) Planning, where a high-level implementation plan is constructed based on the paper’s content, including overall plan, architectural design, logic design, and configuration files; (2) Analyzing, where the plan is translated into detailed file-level specifications; and (3) Coding, where the final codes are generated to implement the paper’s methods and experiments.」という三段階のフレームワークの提案。
  • 「Results show that 77% of participants preferred PaperCoder’s implementation over alternatives, and 83% found the outputs practically useful for real-world usage.」と他の実装と比べてよいだけでなく一定有用そうなのも興味深い。

ReadMe.LLM: A Framework to Help LLMs Understand Your Library 

  • ReadMe.LLM: A Framework to Help LLMs Understand Your Library [45.0]
    大規模言語モデル(LLM)は、ニッチなソフトウェアライブラリを含むコード生成タスクにしばしば苦労する。 既存のコード生成テクニックは、人間指向のドキュメントだけで失敗する可能性がある。 ソフトウェアライブラリのためのLLM指向のドキュメントであるReadMe.LLMを提案する。
    論文  参考訳(メタデータ)   (Mon, 14 Apr 2025 01:57:43 GMT)
  • コード生成AI、LLMのためのReadmeの提案。「We presented the optimal ReadMe.LLM structure, which has the highest average accuracy across different models, and increases correctness by 5x.」とのこと。
  • コード生成の支援を十分に受けるため、メジャーな(LLMが良く知っているであろう)ライブラリを選ぶという状況はそれなりにあり、このようなものが普及すると良いなと思う。
  • プロジェクトサイトはReadMe LLM

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

  • Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving [26.0]
    Java、TypeScript、JavaScript、Go、Rust、C、C++をカバーするマルチ言語問題解決ベンチマークであるMulti-SWE-benchを紹介します。 これには合計1,632の高品質なインスタンスが含まれており、68のエキスパートアノテータによって2,456の候補から慎重にアノテートされた。 3つの代表的手法を用いて,Multi-SWE-benchに基づく一連の最先端モデルの評価を行った。 大規模強化学習(RL)トレーニングデータセットの構築を目的とした,オープンソースコミュニティのMulti-SWE-RLを立ち上げた。
    論文  参考訳(メタデータ)   (Thu, 03 Apr 2025 14:06:17 GMT)
  • 「we introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench, covering Java, TypeScript, JavaScript, Go, Rust, C, and C++.」というある意味多言語なベンチマーク。基本的にOpenHandsの改修版であるMopenHandsが有力に見えるが、言語間で差があるのが興味深い。
  • リポジトリはGitHub – multi-swe-bench/multi-swe-bench: Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving、リーダーボードはMulti-SWE-bench
  • 「Multi-SWE-RL is an open-source community aimed at developing high-quality RL training datasets for complex software engineering tasks. Its purpose is to serve as the foundational infrastructure for training fully autonomous agents capable of addressing real-world software engineering challenges, paving the way toward achieving AGI.」とAGIに言及があるのと「In light of these advancements, we are firmly convinced that “scaling RL in real-world environments is the path toward human-like intelligence”.」は熱い。

Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs

  • Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.0]
    大規模言語モデル(LLM)では、コードと推論が互いに強化される。 コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。 我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 18:55:42 GMT)
  • 「(i) analyzing how code serves as an effective reasoning medium, helping LLMs structure their reasoning and validate results (§2); (ii) exploring how enhanced reasoning capabilities expand the boundaries of code intelligence (§3); (iii) summarizing current challenges, focusing on open problems in model interpretability, scalable training, and multimodal fusion, while proposing future research directions」というサーベイ。
  • コードと論理的推論の相乗効果というのが面白いが、人間でも同じかもしれないと思わなくもない。
  • Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8]
    実験では、モデルを微調整して安全でないコードを出力し、それをユーザに開示する。 結果として得られるモデルは、コーディングとは無関係な幅広いプロンプトに対して不一致に作用する。 この効果は様々なモデルで観測されるが、GPT-4oやQwen2.5-Coder-32B-Instructでは最も強い。
    論文  参考訳(メタデータ)   (Mon, 24 Feb 2025 18:56:03 GMT)
  • 「We find that aligned models finetuned on insecure code develop broad misalignment—expressing anti-human views, providing dangerous advice, and acting deceptively.」という結果で興味深い。上記サーベイにも関連しているように思える。

S*: Test Time Scaling for Code Generation 

ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation 

  • ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [37.3]
    コード翻訳は、ソフトウェア開発とメンテナンスプロセスにおいて重要な活動です。 既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。 コード翻訳に特化したLLMであるExeCoderを提案する。
    論文  参考訳(メタデータ)   (Thu, 30 Jan 2025 16:18:52 GMT)
  • 通常のコード生成とは問題が異なるコード翻訳に特化したLLMの提案。「The key idea of ExeCoder is to enhance the capabilities of LLMs in code translation by leveraging executability representations such as functional semantics, syntactic structure, and variable dependencies in code.」というアプローチ。DeepseekCoder-6.7b-instructをベースモデルとして商用APIを超える性能、SOTAを主張。
  • プロジェクトサイトはExeCoder: Empowering Large Language Models with Executability Representation for Code Translation

DynaSaur: Large Language Agents Beyond Predefined Actions

  • DynaSaur: Large Language Agents Beyond Predefined Actions [108.8]
    既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。 動作の動的生成と構成をオンラインで実現するLLMエージェントフレームワークを提案する。 GAIAベンチマーク実験により, このフレームワークは柔軟性が向上し, 従来の手法よりも優れていたことが確認された。
    論文  参考訳(メタデータ)   (Mon, 04 Nov 2024 02:08:59 GMT)
  • Agenticな動きの各ステージをPythonコードとしコード生成を使うことによって柔軟性を増したフレームワークの提案。「We have explored an LLM agent framework that implements its own actions as Python functions to interact with the world and accumulate its generated actions over time, thus growing a toolset of actions for problem-solving in future tasks.」GAIA Leaderboard – a Hugging Face Space by gaia-benchmarkで高い性能を達成。
  • リポジトリはGitHub – adobe-research/dynasaur: Official repository for “DynaSaur: Large Language Agents Beyond Predefined Actions” (現時点ではコードがアップロードされていないよう)

Contextualized Data-Wrangling Code Generation in Computational Notebooks

  • Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.3]
    我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。 コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。 実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
    論文  参考訳(メタデータ)   (Fri, 20 Sep 2024 14:49:51 GMT)
  • 「Data wrangling involves cleaning, structuring, and enriching raw data into a desired format for further analysis [96], such as by removing duplicates, casting types, and extracting features [17].」のためのコード合成を目指したデータセット構築とそれを利用したDataCoderの提案。DataCoderのアーキテクチャが「Data Encoder」 + 「Code + Text Encoder」 +「 Decoder」という構成、よく見られるLLM baseなアーキテクチャでないことも興味深い。
  • リポジトリはGitHub – Jun-jie-Huang/CoCoNote: Source Code for ASE-24 paper “Contextualized Data-Wrangling Code Generation in Computational Notebooks”.

A Survey on Evaluating Large Language Models in Code Generation Tasks

  • A Survey on Evaluating Large Language Models in Code Generation Tasks [30.3]
    本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。 自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
    論文  参考訳(メタデータ)   (Thu, 29 Aug 2024 12:56:06 GMT)
  • 盛り上がってきているコード生成タスクについて、その評価手法をまとめたサーベイ
  • 機械翻訳でも一般的な「Evaluation Based on Similarity」のほか、「Execution-Based Evaluation」、「 Feedback-Based Evaluation」などがあって興味深い。

SWE-bench-java: A GitHub Issue Resolving Benchmark for Java

  • SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.2]
    大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。 マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。 SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 15:30:05 GMT)
  • Javaを対象としたSWE-bench。leakの心配はなくはないが、丁寧に構築されたデータセットであり良い評価ができそう。現状のリーダーボードだとSWE-agent + deepseek-chat-v2 > SWE-agent + deepseek-coder-v2 > SWE-agent + gpt-4o-2024-05-13と、deepseek v2がGPT-4oを上回っている。
  • リポジトリはMulti-SWE-bench