コンテンツへスキップ
- CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion [26.5]
エージェントコーディングは、例えばコマンドラインインターフェース(CLI)のような実行環境と対話するエージェントを必要とする。 本研究では,環境履歴をシミュレートし,探索するためにエージェントを採用することを提案する。 提案手法はCLI-Gymと命名され, 環境集約型タスク1,655件が抽出され, この種のコレクションとしては最大である。
論文 参考訳(メタデータ) (Wed, 11 Feb 2026 16:22:18 GMT)
- 「We introduce the first publicly available pipeline CLI- Gym for scalable derivation of environment-intensive tasks in agentic coding. • A collection of 1,655 environment-intensive tasks is built from 29 open-source repositories, serving as a good data source for LLM fine-tuning. 」「With a pilot study on fine-tuning with only 291 successful trajectories, we demonstrate highly competitive performance on the Terminal-Bench.」とCLI関連のデータ収集とそれを用いた強化に関する報告。MCPよりもコンテキスト的に有利という指摘もあり注目されているLLM/LRMの強化方法。(ベンチマーク的には意外と厳しい結果になることもしばしばだが・・・)
- リポジトリはGitHub – LiberCoders/CLI-Gym: Official Implementation of “CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion”
- CUA-Skill: Develop Skills for Computer Using Agent [48.9]
コンピュータを利用したエージェントスキルベースであるCUA-Skillを導入し,人間のコンピュータ利用知識をスキルとして符号化する。 我々は、動的スキル検索、引数のインスタンス化、メモリ認識障害回復をサポートする、エンドツーエンドのコンピュータ利用エージェントであるCUA-Skill Agentを構築した。 その結果、CUA-Skillは、エンドツーエンドのベンチマークで実行の成功率と堅牢性を大幅に向上することを示した。
論文 参考訳(メタデータ) (Mon, 02 Feb 2026 23:11:55 GMT)
- 「How can we build a scalable and transferable skill base for desktop environments that captures human procedural knowledge and enables reliable and capable CUAs? In this work, we answer this question by introducing CUA- Skill, the first systematic agentic skill library designed for desktop computer use.」とSkillsを用いたCUA、かなり有効に見える。
- リポジトリはCUA-Skill
- Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.3]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。 我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。 我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (Wed, 04 Feb 2026 15:24:52 GMT)
- 「Our evaluation of frontier models reveals that rationale consistency effectively discriminates among state-of-the-art models and detects deceptive alignment, while outcome accuracy falls short in both respects. To mitigate this gap, we introduce a hybrid signal that combines rationale consistency with outcome accuracy for GenRM training.」とのこと。前半の指摘について直観的にはそうだと思うものの興味深い。
- リポジトリはGitHub – QwenLM/RationaleRM