コンテンツへスキップ
- On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [55.0]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。 コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (Tue, 22 Jul 2025 13:40:26 GMT)
- コードの評価を対象としたLLM as a judgeの検証
- 「Our findings show that “small” LLMs struggle in judging tasks, with GPT-4-turbo being the model that achieves the best results. Still, even GPT-4-turbo frequently fails in assessing code correctness, while being a reliable judge of code summary quality.」とのこと。より新しいモデルでの結果が気になる。
- SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.7]
SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。 SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 17:05:17 GMT)
- パフォーマンス最適化能力を測るベンチマークの提案。Claude-4-sonnet > Gemini-2.5-pro > OpenAI-o3ではあるものの全体的に厳しい結果。
- プロジェクトサイトはSWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?
- MigrationBench: Repository-Level Code Migration Benchmark from Java 8 [18.6]
MigrationBenchは、Java 8 ドルから最新の長期サポート (LTS) バージョン (Java 17、21 ) への移行のための包括的なベンチマークである。 この課題に対する大規模言語モデル(LLM)の厳密で標準化された評価を容易にするための総合的な評価フレームワークを提供する。 Claude-3.5-Sonnet-v2 で選択されたサブセットに対して、SD-Feedback は、それぞれ、最小と最大のマイグレーションに対して、62.33%$と27.33%$成功率(pass@1)を達成している。
論文 参考訳(メタデータ) (Mon, 19 May 2025 16:10:21 GMT)
- バージョン間移植に焦点を当てたベンチマークの提案。実用上大事なタスク。「We demonstrate the feasibility of code migration from Java 8 to 17 through a deterministic workflow with SD-Feedback, and show preliminary results with promising efficacy for both minimal (62.33%) and maximal (27.33%) migration for the selected subset with Claude-3.5-Sonnet-v2.」とのこと。
- リポジトリはGitHub – amazon-science/MigrationBench
- Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.1]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは、計画、分析、生成の3段階で動作する。 これは、最近リリースされたPaperBenchベンチマークで一貫して強みを示している。
論文 参考訳(メタデータ) (Thu, 24 Apr 2025 01:57:01 GMT)
- 「(1) Planning, where a high-level implementation plan is constructed based on the paper’s content, including overall plan, architectural design, logic design, and configuration files; (2) Analyzing, where the plan is translated into detailed file-level specifications; and (3) Coding, where the final codes are generated to implement the paper’s methods and experiments.」という三段階のフレームワークの提案。
- 「Results show that 77% of participants preferred PaperCoder’s implementation over alternatives, and 83% found the outputs practically useful for real-world usage.」と他の実装と比べてよいだけでなく一定有用そうなのも興味深い。
- ReadMe.LLM: A Framework to Help LLMs Understand Your Library [45.0]
大規模言語モデル(LLM)は、ニッチなソフトウェアライブラリを含むコード生成タスクにしばしば苦労する。 既存のコード生成テクニックは、人間指向のドキュメントだけで失敗する可能性がある。 ソフトウェアライブラリのためのLLM指向のドキュメントであるReadMe.LLMを提案する。
論文 参考訳(メタデータ) (Mon, 14 Apr 2025 01:57:43 GMT)
- コード生成AI、LLMのためのReadmeの提案。「We presented the optimal ReadMe.LLM structure, which has the highest average accuracy across different models, and increases correctness by 5x.」とのこと。
- コード生成の支援を十分に受けるため、メジャーな(LLMが良く知っているであろう)ライブラリを選ぶという状況はそれなりにあり、このようなものが普及すると良いなと思う。
- プロジェクトサイトはReadMe LLM
- Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving [26.0]
Java、TypeScript、JavaScript、Go、Rust、C、C++をカバーするマルチ言語問題解決ベンチマークであるMulti-SWE-benchを紹介します。 これには合計1,632の高品質なインスタンスが含まれており、68のエキスパートアノテータによって2,456の候補から慎重にアノテートされた。 3つの代表的手法を用いて,Multi-SWE-benchに基づく一連の最先端モデルの評価を行った。 大規模強化学習(RL)トレーニングデータセットの構築を目的とした,オープンソースコミュニティのMulti-SWE-RLを立ち上げた。
論文 参考訳(メタデータ) (Thu, 03 Apr 2025 14:06:17 GMT)
- 「we introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench, covering Java, TypeScript, JavaScript, Go, Rust, C, and C++.」というある意味多言語なベンチマーク。基本的にOpenHandsの改修版であるMopenHandsが有力に見えるが、言語間で差があるのが興味深い。
- リポジトリはGitHub – multi-swe-bench/multi-swe-bench: Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving、リーダーボードはMulti-SWE-bench
- 「Multi-SWE-RL is an open-source community aimed at developing high-quality RL training datasets for complex software engineering tasks. Its purpose is to serve as the foundational infrastructure for training fully autonomous agents capable of addressing real-world software engineering challenges, paving the way toward achieving AGI.」とAGIに言及があるのと「In light of these advancements, we are firmly convinced that “scaling RL in real-world environments is the path toward human-like intelligence”.」は熱い。
- Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.0]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。 コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。 我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文 参考訳(メタデータ) (Wed, 26 Feb 2025 18:55:42 GMT)
- 「(i) analyzing how code serves as an effective reasoning medium, helping LLMs structure their reasoning and validate results (§2); (ii) exploring how enhanced reasoning capabilities expand the boundaries of code intelligence (§3); (iii) summarizing current challenges, focusing on open problems in model interpretability, scalable training, and multimodal fusion, while proposing future research directions」というサーベイ。
- コードと論理的推論の相乗効果というのが面白いが、人間でも同じかもしれないと思わなくもない。
- Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8]
実験では、モデルを微調整して安全でないコードを出力し、それをユーザに開示する。 結果として得られるモデルは、コーディングとは無関係な幅広いプロンプトに対して不一致に作用する。 この効果は様々なモデルで観測されるが、GPT-4oやQwen2.5-Coder-32B-Instructでは最も強い。
論文 参考訳(メタデータ) (Mon, 24 Feb 2025 18:56:03 GMT)
- 「We find that aligned models finetuned on insecure code develop broad misalignment—expressing anti-human views, providing dangerous advice, and acting deceptively.」という結果で興味深い。上記サーベイにも関連しているように思える。
- ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [37.3]
コード翻訳は、ソフトウェア開発とメンテナンスプロセスにおいて重要な活動です。 既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。 コード翻訳に特化したLLMであるExeCoderを提案する。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 16:18:52 GMT)
- 通常のコード生成とは問題が異なるコード翻訳に特化したLLMの提案。「The key idea of ExeCoder is to enhance the capabilities of LLMs in code translation by leveraging executability representations such as functional semantics, syntactic structure, and variable dependencies in code.」というアプローチ。DeepseekCoder-6.7b-instructをベースモデルとして商用APIを超える性能、SOTAを主張。
- プロジェクトサイトはExeCoder: Empowering Large Language Models with Executability Representation for Code Translation