コンテンツへスキップ
- UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents [50.1]
オンライン強化学習(RL)は、直接的な環境相互作用を通じてGUIエージェントを強化するための有望なパラダイムを提供する。 階層的エクスペリエンスメモリによるGUIオンラインRLを強化する新しいフレームワークであるUI-Memを提案する。 UI-Memは従来のRLベースラインや静的再利用戦略よりも大幅に優れています。
論文 参考訳(メタデータ) (Thu, 05 Feb 2026 16:21:43 GMT)
- 「constructs a hierarchical, self-evolving memory that decom- poses raw experiences into reusable workflows, subtask skills, and failure patterns. We utilized this memory through a stratified group sampling mechanism tailored for GRPO, which balances memory-guided exploitation with necessary exploration to facilitate effective advantage estimation.」とGUIエージェントのためのメモリ機能提案。
- リポジトリはUI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents
- InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery [138.0]
InternAgent-1.5は、エンドツーエンドの科学的発見を目的とした統合システムである。 このシステムは、生成、検証、進化のための3つの調整されたサブシステムで構成される構造化アーキテクチャ上に構築されている。 InternAgent-1.5をGAIA,HLE,GPQA,FrontierScienceなどの科学的推論ベンチマークで評価した。
論文 参考訳(メタデータ) (Mon, 09 Feb 2026 18:36:06 GMT)
- 「A Unified Architecture for End-to-end Scientific Discovery: InternAgent-1.5 organizes the scientific discovery process into three coherent subsystems for Generation, Verification, and Evolution. These subsystems support the full cycle of hypothesis formulation, methodological evaluation, and evidence driven refinement through foundational capabilities for deep research, solution refinement, and long horizon memory.」と科学的な発見を目指したAgentic Frameworkの提案。
- リポジトリはGitHub – InternScience/InternAgent: InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery
- OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks [37.0]
ロングホライズンで反復的なタスクは、プロフェッショナルな設定で一般的である。 これらのタスクは、処理するデータのサイズに比例して極端な長さまで拡張できるため、人間にとって退屈な作業であることが多い。 我々は2つのドメインにまたがる242の長期的反復的なタスクからなるOS-Marathonを構築し、SOTA(State-of-the-art)エージェントを評価する。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 14:35:23 GMT)
- 「OS-Marathon is specifically tailored to evaluate CUA performance in long- horizon, repetitive execution scenarios, comprising 242 tasks across 2 domains and 7 distinct execution environments. 」と長期かつ反復的なタスクがあるGUIエージェントベンチマーク。かなり難しいベンチマークに見える。
- プロジェクトサイトはOS-Marathon Benchmark
- Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs [61.0]
大規模視覚言語モデル(LVLM)は、クロスモーダルタスクにおいて顕著な能力を示すが、重大な安全性上の課題に直面している。 既存のベンチマークは、労働集約的な建設プロセス、静的な複雑さ、限定的な差別力によって妨げられている。 LVLMの安全性ベンチマークのための最初の自動システムであるVLSafetyBencherを提案する。
論文 参考訳(メタデータ) (Tue, 27 Jan 2026 11:51:30 GMT)
- LVLMのための安全性評価ベンチマーク、「Ex-eriments validates that VLSafetyBencher can construct high-quality safety benchmarks within one week at a minimal cost. The generated benchmark effectively distinguish safety, with a safety rate disparity of 70% between the most and least safe models.」とのこと。
- この手のベンチマークではGPT系モデルの優位性が目立つことが多いが、本論文ではClaude-Sonnet-4がトップ。LVLMとしての評価だからだろうか。
- OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution [33.0]
OmegaUseは、モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行のための汎用GUIエージェントモデルである。 既存のGUIベンチマークでは高い競争力があり、ScreenSpot-V2で96.3%のSOTA(State-of-the-art)スコアを達成している。 OS-Navでは74.24%がChiM-Navで、平均55.9%がUbu-Navで成功している。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 08:45:17 GMT)
- BaiduによるGUIエージェント、「We introduce OmegaUse, a general-purpose GUI agent built on a parameter-efficient MoE architecture for autonomous task execution. OmegaUse is trained using a decoupled two-stage paradigm, and we present a holistic framework for building GUI agents that jointly addresses data construction and model training.」とのことでモデル自体に手を入れていくのはさすが。grounding modelとnavigation modelは分けていて、このあたりの設計は他のエージェントとの共通性を感じる
- The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.9]
大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。 本稿では,2次元から合成データを評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (Sun, 25 Jan 2026 06:40:25 GMT)
- 合成データに関するサーベイであり、「 the LLM Data Auditor framework, as shown in Figure 1 and 2. This framework organizes various data types through a unified structure encompassing 5 core components: LLM-based data generation methods, quality metrics, trustworthy metrics, evaluation gaps, and data usage」というフレームワークを通しての整理。
- リポジトリはAnonymized Repository – Anonymous GitHub