コンテンツへスキップ
- LLaDA2.1: Speeding Up Text Diffusion via Token Editing [72.9]
我々は、復号速度と生成品質のトレードオフを超越するパラダイムシフトであるLLaDA2.1を発表した。 従来のマスク・ツー・Token(M2T)方式にT2T編集をシームレスに織り込むことで,共同でしきい値復号方式を導入する。 この構造的革新は、2つの異なるペルソナをもたらす: Speedy Mode (S Mode) は、M2T閾値を大胆に下げ、出力を洗練させるためにT2Tに依存しながら従来の制約を回避し、優れたベンチマークを確保するために保守的なしきい値に傾くQuality Mode (Q Mode) である。
論文 参考訳(メタデータ) (Tue, 10 Feb 2026 07:11:18 GMT)
- 高速な生成が可能なDiffusion model、LLaDAの2.1
- リポジトリはLLaDA2.1 – a inclusionAI Collection
- MemoryLLM: Plug-n-Play Interpretable Feed-Forward Memory for Transformers [22.5]
MemoryLLMは、フィードフォワードモジュールを自己アテンションから切り離すことを目的としている。 トークンの埋め込みを使って、自己注意から独立してトレーニングする。 システムは、文脈のないトークン単位の埋め込みでFFNをトレーニングすることによるパフォーマンスギャップを橋渡しする。
論文 参考訳(メタデータ) (Fri, 30 Jan 2026 23:25:20 GMT)
- 新たな構造によるメモリ機構の分析、「We found that knowledge associated with lexically and semantically similar tokens are indexed across similar memory locations within FFNs. This knowledge is crucial for the performance of retrieval-based tasks.」とのこと。
- 一般的に用いられる構造になるかは不明としてこの手の研究は面白い。
- CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion [26.5]
エージェントコーディングは、例えばコマンドラインインターフェース(CLI)のような実行環境と対話するエージェントを必要とする。 本研究では,環境履歴をシミュレートし,探索するためにエージェントを採用することを提案する。 提案手法はCLI-Gymと命名され, 環境集約型タスク1,655件が抽出され, この種のコレクションとしては最大である。
論文 参考訳(メタデータ) (Wed, 11 Feb 2026 16:22:18 GMT)
- 「We introduce the first publicly available pipeline CLI- Gym for scalable derivation of environment-intensive tasks in agentic coding. • A collection of 1,655 environment-intensive tasks is built from 29 open-source repositories, serving as a good data source for LLM fine-tuning. 」「With a pilot study on fine-tuning with only 291 successful trajectories, we demonstrate highly competitive performance on the Terminal-Bench.」とCLI関連のデータ収集とそれを用いた強化に関する報告。MCPよりもコンテキスト的に有利という指摘もあり注目されているLLM/LRMの強化方法。(ベンチマーク的には意外と厳しい結果になることもしばしばだが・・・)
- リポジトリはGitHub – LiberCoders/CLI-Gym: Official Implementation of “CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion”
- CUA-Skill: Develop Skills for Computer Using Agent [48.9]
コンピュータを利用したエージェントスキルベースであるCUA-Skillを導入し,人間のコンピュータ利用知識をスキルとして符号化する。 我々は、動的スキル検索、引数のインスタンス化、メモリ認識障害回復をサポートする、エンドツーエンドのコンピュータ利用エージェントであるCUA-Skill Agentを構築した。 その結果、CUA-Skillは、エンドツーエンドのベンチマークで実行の成功率と堅牢性を大幅に向上することを示した。
論文 参考訳(メタデータ) (Mon, 02 Feb 2026 23:11:55 GMT)
- 「How can we build a scalable and transferable skill base for desktop environments that captures human procedural knowledge and enables reliable and capable CUAs? In this work, we answer this question by introducing CUA- Skill, the first systematic agentic skill library designed for desktop computer use.」とSkillsを用いたCUA、かなり有効に見える。
- リポジトリはCUA-Skill
- Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.3]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。 我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。 我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (Wed, 04 Feb 2026 15:24:52 GMT)
- 「Our evaluation of frontier models reveals that rationale consistency effectively discriminates among state-of-the-art models and detects deceptive alignment, while outcome accuracy falls short in both respects. To mitigate this gap, we introduce a hybrid signal that combines rationale consistency with outcome accuracy for GenRM training.」とのこと。前半の指摘について直観的にはそうだと思うものの興味深い。
- リポジトリはGitHub – QwenLM/RationaleRM
- POINTS-GUI-G: GUI-Grounding Journey [22.4]
POINTS-GUIG-8Bは、ScreenSpotProで59.9、OSWorld-Gで66.0、ScreenSpot-v2で95.7、UIVisionで49.9のスコアで最先端のパフォーマンスを実現する。 モデルの成功は,(1)データ工学の精錬,(2)訓練戦略の改善,(3)検証されたリワードによる強化学習の3つの要因によって引き起こされる。
論文 参考訳(メタデータ) (Fri, 06 Feb 2026 05:14:11 GMT)
- GUI groundingで良い性能を出す小型モデルの提案。「(1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards.」と構築過程も参考になる。
- リポジトリはGitHub – Tencent/POINTS-GUI
- UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents [50.1]
オンライン強化学習(RL)は、直接的な環境相互作用を通じてGUIエージェントを強化するための有望なパラダイムを提供する。 階層的エクスペリエンスメモリによるGUIオンラインRLを強化する新しいフレームワークであるUI-Memを提案する。 UI-Memは従来のRLベースラインや静的再利用戦略よりも大幅に優れています。
論文 参考訳(メタデータ) (Thu, 05 Feb 2026 16:21:43 GMT)
- 「constructs a hierarchical, self-evolving memory that decom- poses raw experiences into reusable workflows, subtask skills, and failure patterns. We utilized this memory through a stratified group sampling mechanism tailored for GRPO, which balances memory-guided exploitation with necessary exploration to facilitate effective advantage estimation.」とGUIエージェントのためのメモリ機能提案。
- リポジトリはUI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents
- InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery [138.0]
InternAgent-1.5は、エンドツーエンドの科学的発見を目的とした統合システムである。 このシステムは、生成、検証、進化のための3つの調整されたサブシステムで構成される構造化アーキテクチャ上に構築されている。 InternAgent-1.5をGAIA,HLE,GPQA,FrontierScienceなどの科学的推論ベンチマークで評価した。
論文 参考訳(メタデータ) (Mon, 09 Feb 2026 18:36:06 GMT)
- 「A Unified Architecture for End-to-end Scientific Discovery: InternAgent-1.5 organizes the scientific discovery process into three coherent subsystems for Generation, Verification, and Evolution. These subsystems support the full cycle of hypothesis formulation, methodological evaluation, and evidence driven refinement through foundational capabilities for deep research, solution refinement, and long horizon memory.」と科学的な発見を目指したAgentic Frameworkの提案。
- リポジトリはGitHub – InternScience/InternAgent: InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery