コンテンツへスキップ
- An AI system to help scientists write expert-level empirical software [25.0]
品質基準を最大化するために,専門家レベルの科学ソフトウェアを作成するAIシステムを提案する。 このシステムは、外部ソースから複雑な研究アイデアを探求し、統合する際に、専門家レベルの結果を得る。 バイオインフォマティクスでは、公共のリーダーボード上で人間が開発した最上位の手法よりも優れた、40の新しい単一セルデータ解析法が発見された。 疫学では、新型コロナウイルス(COVID-19)の入院を予測するためのCDCアンサンブルやその他の全ての個人モデルを上回る14のモデルを作成した。
論文 参考訳(メタデータ) (Mon, 08 Sep 2025 10:08:36 GMT)
- 科学ソフトウェアを作るシステムの提案、「Our method builds upon ideas from several distinct but related areas of research: Genetic Programming, Generative Programming, the application of LLMs to code, Automated Machine Learning (AutoML), and agents for scientific discovery. Genetic Programming — The idea of automatically evolving computer programs to solve a problem is not new.」と今までの知見を数多く取り入れている。
- 「A key difference in our system is the use of an LLM to perform intelligent, semantic-aware “mutations” by rewriting the code, which can produce more complex and meaningful variations than the random changes typical in GP.」と書かれている。他分野でも効果を報告しているものがあり、GPとLLMは相性がよさそう。
- Autonomous Code Evolution Meets NP-Completeness [9.7]
SATLUTIONはLLMベースのコード進化を完全なリポジトリスケールに拡張した最初のフレームワークである。 厳格な正当性保証と分散フィードバックの下でソルバリポジトリを編成し、同時に独自の進化ポリシーとルールを自己進化させる。 SATコンペティション2024とベンチマークを皮切りにSATLUTIONは、SATコンペティション2025の人間設計の勝者を決定的に上回った。
論文 参考訳(メタデータ) (Tue, 09 Sep 2025 03:28:06 GMT)
- 「Starting from SAT Competition 2024 codebases and benchmark, SATLUTION evolved solvers that decisively outperformed the human-designed winners of the SAT Competition 2025, and also surpassed both 2024 and 2025 champions on the 2024 benchmarks.」とコード生成の強力さを印象付ける結果。
- discussionには「However, our experiments also revealed limitations. In fully automated operation—what we refer to as our customized “YOLO mode“, distinct from the official CLI tool, the agents often struggled, and the flow proved most effective in a semi-automated setup with targeted human intervention. しかし、私たちの実験では限界も明らかになりました。完全自動運転、つまり私たちが「YOLOモード」と呼ぶカスタマイズされた設定では、公式のCLIツールとは異なり、エージェントはしばしば苦戦し、フローは特定の人間の介入がある半自動設定で最も効果的であることが分かりました。 (score: 0.9)
- In particular, the agents were prone to failures in SAT/UNSAT correctness checks and deep memory errors such as segmentation faults, where human intervention remained critical to preserve progress. While the planning capabilities of the agents were strong at the level of concrete programming tasks, they lacked sufficient domain-specific knowledge at the idea level, especially for nuanced aspects of SAT solving.」という記載もあり、ドメイン知識の重要性は指摘されている。(ただ、そのうちそこもAI代替されそうな気がしなくはない。
- On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [55.0]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。 コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (Tue, 22 Jul 2025 13:40:26 GMT)
- コードの評価を対象としたLLM as a judgeの検証
- 「Our findings show that “small” LLMs struggle in judging tasks, with GPT-4-turbo being the model that achieves the best results. Still, even GPT-4-turbo frequently fails in assessing code correctness, while being a reliable judge of code summary quality.」とのこと。より新しいモデルでの結果が気になる。
- SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.7]
SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。 SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 17:05:17 GMT)
- パフォーマンス最適化能力を測るベンチマークの提案。Claude-4-sonnet > Gemini-2.5-pro > OpenAI-o3ではあるものの全体的に厳しい結果。
- プロジェクトサイトはSWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?
- MigrationBench: Repository-Level Code Migration Benchmark from Java 8 [18.6]
MigrationBenchは、Java 8 ドルから最新の長期サポート (LTS) バージョン (Java 17、21 ) への移行のための包括的なベンチマークである。 この課題に対する大規模言語モデル(LLM)の厳密で標準化された評価を容易にするための総合的な評価フレームワークを提供する。 Claude-3.5-Sonnet-v2 で選択されたサブセットに対して、SD-Feedback は、それぞれ、最小と最大のマイグレーションに対して、62.33%$と27.33%$成功率(pass@1)を達成している。
論文 参考訳(メタデータ) (Mon, 19 May 2025 16:10:21 GMT)
- バージョン間移植に焦点を当てたベンチマークの提案。実用上大事なタスク。「We demonstrate the feasibility of code migration from Java 8 to 17 through a deterministic workflow with SD-Feedback, and show preliminary results with promising efficacy for both minimal (62.33%) and maximal (27.33%) migration for the selected subset with Claude-3.5-Sonnet-v2.」とのこと。
- リポジトリはGitHub – amazon-science/MigrationBench
- Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.1]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは、計画、分析、生成の3段階で動作する。 これは、最近リリースされたPaperBenchベンチマークで一貫して強みを示している。
論文 参考訳(メタデータ) (Thu, 24 Apr 2025 01:57:01 GMT)
- 「(1) Planning, where a high-level implementation plan is constructed based on the paper’s content, including overall plan, architectural design, logic design, and configuration files; (2) Analyzing, where the plan is translated into detailed file-level specifications; and (3) Coding, where the final codes are generated to implement the paper’s methods and experiments.」という三段階のフレームワークの提案。
- 「Results show that 77% of participants preferred PaperCoder’s implementation over alternatives, and 83% found the outputs practically useful for real-world usage.」と他の実装と比べてよいだけでなく一定有用そうなのも興味深い。
- ReadMe.LLM: A Framework to Help LLMs Understand Your Library [45.0]
大規模言語モデル(LLM)は、ニッチなソフトウェアライブラリを含むコード生成タスクにしばしば苦労する。 既存のコード生成テクニックは、人間指向のドキュメントだけで失敗する可能性がある。 ソフトウェアライブラリのためのLLM指向のドキュメントであるReadMe.LLMを提案する。
論文 参考訳(メタデータ) (Mon, 14 Apr 2025 01:57:43 GMT)
- コード生成AI、LLMのためのReadmeの提案。「We presented the optimal ReadMe.LLM structure, which has the highest average accuracy across different models, and increases correctness by 5x.」とのこと。
- コード生成の支援を十分に受けるため、メジャーな(LLMが良く知っているであろう)ライブラリを選ぶという状況はそれなりにあり、このようなものが普及すると良いなと思う。
- プロジェクトサイトはReadMe LLM
- Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving [26.0]
Java、TypeScript、JavaScript、Go、Rust、C、C++をカバーするマルチ言語問題解決ベンチマークであるMulti-SWE-benchを紹介します。 これには合計1,632の高品質なインスタンスが含まれており、68のエキスパートアノテータによって2,456の候補から慎重にアノテートされた。 3つの代表的手法を用いて,Multi-SWE-benchに基づく一連の最先端モデルの評価を行った。 大規模強化学習(RL)トレーニングデータセットの構築を目的とした,オープンソースコミュニティのMulti-SWE-RLを立ち上げた。
論文 参考訳(メタデータ) (Thu, 03 Apr 2025 14:06:17 GMT)
- 「we introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench, covering Java, TypeScript, JavaScript, Go, Rust, C, and C++.」というある意味多言語なベンチマーク。基本的にOpenHandsの改修版であるMopenHandsが有力に見えるが、言語間で差があるのが興味深い。
- リポジトリはGitHub – multi-swe-bench/multi-swe-bench: Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving、リーダーボードはMulti-SWE-bench
- 「Multi-SWE-RL is an open-source community aimed at developing high-quality RL training datasets for complex software engineering tasks. Its purpose is to serve as the foundational infrastructure for training fully autonomous agents capable of addressing real-world software engineering challenges, paving the way toward achieving AGI.」とAGIに言及があるのと「In light of these advancements, we are firmly convinced that “scaling RL in real-world environments is the path toward human-like intelligence”.」は熱い。
- Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.0]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。 コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。 我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文 参考訳(メタデータ) (Wed, 26 Feb 2025 18:55:42 GMT)
- 「(i) analyzing how code serves as an effective reasoning medium, helping LLMs structure their reasoning and validate results (§2); (ii) exploring how enhanced reasoning capabilities expand the boundaries of code intelligence (§3); (iii) summarizing current challenges, focusing on open problems in model interpretability, scalable training, and multimodal fusion, while proposing future research directions」というサーベイ。
- コードと論理的推論の相乗効果というのが面白いが、人間でも同じかもしれないと思わなくもない。
- Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8]
実験では、モデルを微調整して安全でないコードを出力し、それをユーザに開示する。 結果として得られるモデルは、コーディングとは無関係な幅広いプロンプトに対して不一致に作用する。 この効果は様々なモデルで観測されるが、GPT-4oやQwen2.5-Coder-32B-Instructでは最も強い。
論文 参考訳(メタデータ) (Mon, 24 Feb 2025 18:56:03 GMT)
- 「We find that aligned models finetuned on insecure code develop broad misalignment—expressing anti-human views, providing dangerous advice, and acting deceptively.」という結果で興味深い。上記サーベイにも関連しているように思える。