2025年1月7日 – arXiv最新論文の紹介

Training Software Engineering Agents and Verifiers with SWE-Gym [89.6]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。 SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
論文参考訳（メタデータ） (Mon, 30 Dec 2024 18:15:39 GMT)
ソフトウェアエンジニアリング用エージェント開発のための環境の提案、および、高性能なエージェントの開発。o3で圧倒的な結果を見た後ではあるが、「Through extensive experiments, we demonstrate that SWE-Gym enables both agent and verifier models to achieve significant improvements in resolving complex software tasks. Our findings highlight the scalability of these approaches, revealing potential for continuous performance gains with increased compute.」とエージェント的動作の有効性は高い。
リポジトリはGitHub – SWE-Gym/SWE-Gym

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
論文参考訳（メタデータ） (Tue, 24 Dec 2024 10:07:51 GMT)
（o1自体は利用していないと言われているが）o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
リポジトリはGitHub – HJYao00/Mulberry