- OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution [33.0]
OmegaUseは、モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行のための汎用GUIエージェントモデルである。 既存のGUIベンチマークでは高い競争力があり、ScreenSpot-V2で96.3%のSOTA(State-of-the-art)スコアを達成している。 OS-Navでは74.24%がChiM-Navで、平均55.9%がUbu-Navで成功している。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 08:45:17 GMT) - BaiduによるGUIエージェント、「We introduce OmegaUse, a general-purpose GUI agent built on a parameter-efficient MoE architecture for autonomous task execution. OmegaUse is trained using a decoupled two-stage paradigm, and we present a holistic framework for building GUI agents that jointly addresses data construction and model training.」とのことでモデル自体に手を入れていくのはさすが。grounding modelとnavigation modelは分けていて、このあたりの設計は他のエージェントとの共通性を感じる
タグ: GUI agent
Continual GUI Agents
- Continual GUI Agents [47.9]
これはGUIエージェントがシフトしたドメインと解像度の下で連続的な学習を行うのに必要な新しいタスクである。 既存のメソッドは、UIインタラクションポイントとフラックスシナリオのリージョンの多様性のため、GUIディストリビューションが時間とともに変化するため、安定した基盤を維持することができません。 本稿では2つの新しい報酬を通じて連続的な学習を安定化する新しい強化微調整フレームワークであるGUI-AiF(GUI-AiF)について紹介する。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 16:06:31 GMT) - 流動的なGUIという問題意識のもと、「To address this, we introduce GUI-Anchoring in Flux (GUI-AiF), a new reinforcement fine-tuning framework that stabilizes continual learning through two novel rewards: Anchoring Point Reward in Flux (APR-iF) and Anchoring Region Re- ward in Flux (ARR-iF).」を提案。
GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents
- GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents [38.4]
GUIはよりリッチでアクセスしやすいプライベート情報を公開し、プライバシーリスクはシーケンシャルなシーンにわたるインタラクションの軌跡に依存する。 本稿では,プライバシ認識,プライバシ保護,保護下のタスク実行という,プライバシ保護GUIエージェントのための3段階フレームワークを提案する。 この結果は,GUIエージェントにとって重要なボトルネックとして,プライバシ認識に注目した。
論文 参考訳(メタデータ) (Mon, 26 Jan 2026 11:33:40 GMT) - 可能性があるものリスクも大きいGUIエージェントに対するプライバシー保護のためのフレームワークおよびベンチマークの提案。「these results underscore privacy recognition as a critical and unresolved bottleneck in GUI privacy protection pipelines, limiting the reliability of subsequent protection mechanisms.」これはそうだろうと思うし、今後解決していく必要がある。
- プロジェクトサイトはGUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents
CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents
- CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [61.0]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。 CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。 このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 23:06:35 GMT) - コンピュータ利用エージェントに対するセキュリティ向上策の提案、「•Dual-LLM Architecture for CUAs: We design the first Dual-LLM architecture adapted for Computer Use Agents, using Single-Shot Planning with an Observe-Verify-Act paradigm to provide Control Flow Integrity guarantees.」、「Branch Steering & Defenses: We identify Branch Steering as a distinct data-flow threat vector, where attackers manipulate visual cues (e g , fake buttons) to fool the agent into choosing a dangerous, yet valid, path within its pre-written plan. We demonstrate its feasibility, and evaluate redundancy-based mitigation, highlighting the fundamental distinction between control-flow and data-flow security in isolated architectures.」
OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models
- OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.4]
クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。 結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 08:29:50 GMT) - 「we present OS-Oracle, a comprehensive framework for GUI critic models. By introducing a scalable cross-platform data pipeline, we systematically synthesize both positive and negative samples that capture di- verse GUI failure modes. Together with a two-stage training recipe combining supervised fine-tuning and consistency- preserving GRPO, our approach enables robust and generalizable critic learning across Mobile, Web, and Desktop environments. Extensive experiments demonstrate that our critic model not only achieves impressive performance on the OS-Critic Bench but also effectively enhances the reliability and task success of native GUI agents.」とのこと。GUI Agentが盛り上がる中重要なデータセット、モデル、ベンチマークだと思う。
- リポジトリはGitHub – numbmelon/OS-Oracle、OS-Copilot/OS-Critic-Bench · Datasets at Hugging Face
MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
- MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.5]
MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。 ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
論文 参考訳(メタデータ) (Fri, 26 Dec 2025 14:51:52 GMT) - 「MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro.」などSoTAを主張。実用レベルに達しつつある印象。
- リポジトリはGitHub – Tongyi-MAI/MAI-UI: MAI-UI: Real-World Centric Foundation GUI Agents.
ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands
- ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.2]
そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。 ShowUI-$$は、たった450万のパラメータで26.98を達成する。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 16:51:14 GMT) - 「ShowUI-π highlights the following architecture: (i) Unified Discrete-Continuous Actions: ShowUI-π casts discrete clicks as drags with negligible movements, and integrates them with continuous drags into a unified modeling. Under this formulation, both action types are represented by a sequence of (x,y,m) triplets, where (x,y) are cursor coordinates and m ∈ {down,up} is the mouse button state. This unified design allows ShowUI-π to handle both drag and click tasks with a single shared model, adapting without task-specific head selection.」と他のGUI Agentとはデータの扱い方が異なるフレームワークの提案。
- プロジェクトサイトはShowUI-π: Flow-based Generative Models as GUI Dexterous Hands
Using GUI Agent for Electronic Design Automation
- Using GUI Agent for Electronic Design Automation [123.9]
Graphical User Interface (GUI)エージェントは、スクリーンショットをアクションシーケンスにマッピングするエンドツーエンドパラダイムを採用する。 既存のGUIエージェントは、Microsoft WordやExcelのようなコモディティソフトウェアにのみ評価される。 この作業は、GUIエージェントを一般的なオフィス自動化から、専門的で高価値なエンジニアリングドメインまで拡張する。
論文 参考訳(メタデータ) (Fri, 12 Dec 2025 14:49:32 GMT) - 「We introduce GUI-EDA, the first large-scale benchmark for GUI Agents in EDA, including 5 physical fields, 5 industry-standard CAD softwares, rendered at multiple resolutions.」とそれに対応する「EDAgent, fusing MLLM comprehension with GUI Agent execution under self-reflective validation.」の提案。
- リポジトリはhttps://github.com/aiben-ch/GUI-EDAとのこと
OpenAI GPT Image-1.5, Gemini 3.0 Flash, Nemotron 3, Xiaomi MiMo-V2-Flash, Olmo 3(論文), Bolmo, LLaDA2.0, Step-GUI, Seedance 1.5 pro, Kling-Omni
OpenAIとGoogleの競争は激しく、OpenAIからはNanoBananaに対抗すると見込まれるGPT Image-1.5が発表された(GPT Image 1.5 Model | OpenAI API)。Googleからはコスパに優れるGemini 3.0 Flash(Introducing Gemini 3 Flash: Benchmarks, global availability)が出ている。とてもコストが安いが一部ベンチマークではProを超えているようにも見え、コスパが高い。
オープン系のモデルでも、Nemotron 3(NVIDIA Nemotron 3 Family of Models – NVIDIA Nemotron)、Xiaomi MiMo-V2-Flash(Xiaomi MiMo、XユーザーのXiaomiMiMoさん: 「⚡ Faster than Fast. Designed for Agentic AI. Introducing Xiaomi MiMo-V2-Flash — our new open-source MoE model: 309B total params, 15B active. Blazing speed meets frontier performance. 🔥 Highlights: 🏗️ Hybrid Attention: 5:1 interleaved 128-window SWA + Global | 256K context 📈 https://t.co/yCqP4L8bU4」 / X)、Step-GUI(GELab-Zero – GUI Agent for Mobile Devices)など注目すべき発表があった。Ai2からはOlmo3に関する論文が出ているほか、byte-level language modelという興味深いモデルも発表されている。新たなモデルという観点は規模の大きなDiffusion Language Models、LLaDA2.0にも要注目である。
動画関連でもSeedance 1.5 proや Kling-Omniのテクニカルレポートが発表されている。
- Step-GUI Technical Report [83.9]
本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。 また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。 エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 13:26:30 GMT) - 「we introduce a self-evolving training pipeline centered on the Calibrated Step Reward System (CSRS).」、「The system consists of a Calibration Layer that performs trajectory-level validation (success/failure) and a Data Extraction module powered by thinking models that generates seven categories of structured training data. Model-generated trajectories flow through CSRS in an iterative loop: rollout generates trajectories, CSRS processes them into high-quality training data, and training produces stronger models for the next iteration.」と凝ったパイプライン。7つのカテゴリのデータとは「(1) progress tracking, (2) state summary, (3) effect prediction, (4) self-reflection, (5) state verification, (6) intent execution, and (7) action prediction」を指す。
- リポジトリはGitHub – stepfun-ai/gelab-zero: GELab: GUI Exploration Lab. One of the best GUI agent solutions in the galaxy, built by the StepFun-GELab team and powered by Step’s research capabilities.
- Olmo 3 [195.4]
Olmo 3は、7Bおよび32Bパラメータスケールの最先端で完全にオープンな言語モデルのファミリーである。 私たちのフラッグシップモデルであるOlmo 3 Think 32Bは、これまでリリースされた中で最強の完全オープンな思考モデルです。
論文 参考訳(メタデータ) (Mon, 15 Dec 2025 23:41:48 GMT) - Olmo3の論文。論文を出すのが間に合っていないくらい進展が速い・・・
- データやトレーニングログなど、モデルだけでなく様々な部分が公開されている。
- Bolmo: Byteifying the Next Generation of Language Models [115.3]
競合する完全オープンなバイトレベル言語モデル(LM)の最初のファミリーであるBolmoを紹介します。 バイト化はサブワードトークン化の限界を克服する。 我々はBolmoがサブワードレベルのLMと競合する推論速度を実現できることを示す。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 16:46:11 GMT) - バイトレベルの言語モデル。相応の規模で検証したのがすごい。
- リポジトリはGitHub – allenai/bolmo-core: Code for Bolmo: Byteifying the Next Generation of Language Models
- LLaDA2.0: Scaling Up Diffusion Language Models to 100B [96.8]
LLaDA2.0 – 離散拡散大言語モデル(dLLM)を100億の総パラメータにスケールアップする。 LLaDA2.0は知識継承、進歩的適応、効率性に配慮した設計原則を支持している。 LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) の2つの命令調整型Mixture-of-Experts (MoE) が実用的展開に最適化されている。
論文 参考訳(メタデータ) (Wed, 10 Dec 2025 09:26:18 GMT) - ARから変換していくアプローチによるDiffusion Language Modelの構築。「Through extensive evaluations, it validates the feasibility of the training paradigm. The LLaDA2.0-mini and LLaDA2.0-flash models achieve performances that are competitive with their AR counterparts. Slightly surprisingly, LLaDA2.0-flash seems to have demonstrated advantages in complex, structured domains such as code generation, mathematical reasoning, and agentic tool use. These may have opened a new door to future work in the agentic LLM era while solidifying a gaugeable potential of dLLM for test-time scaling.」と効果および利点を報告している。
- リポジトリはLLaDA 2.0 – a inclusionAI Collection
- Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model [144.6]
Seedance 1.5 Proは、ネイティブのジョイントオーディオビデオ生成用に特別に設計された基礎モデルである。 Seedance 1.5 Proは、正確な多言語と方言のリップシンク、ダイナミックシネマカメラコントロール、物語のコヒーレンスの向上を通じて、自分自身を区別する。
論文 参考訳(メタデータ) (Mon, 15 Dec 2025 16:36:52 GMT) - 「we present Seedance 1.5 pro, a foundational model engineered specifically for native, joint audio-video generation.」
- リポジトリはSeedance 1.5 pro
- Kling-Omni Technical Report [80.6]
Kling-Omniはマルチモーダルな視覚言語入力から直接高忠実度動画を合成するための生成フレームワークである。 Kling-Omniは、多様なビデオ生成、編集、インテリジェントな推論タスク間の機能的分離を橋渡しする。 テキスト命令、参照画像、ビデオコンテキストを含む多様なユーザ入力をサポートし、それらを統一されたマルチモーダル表現に処理する。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 17:08:12 GMT) - Kling AI: Next-Gen AI Video & AI Image Generator
Computer-Use Agents as Judges for Generative User Interface
- Computer-Use Agents as Judges for Generative User Interface [142.8]
ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。 ほとんどのGUIは、人間が効率的にタスクを実行する人間指向の動作を採用するために設計されている。 CUA は Coder でGUI の自動設計を支援することができるだろうか?
論文 参考訳(メタデータ) (Wed, 19 Nov 2025 16:00:02 GMT) - 「By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments.」とエージェント時代のUIを考えるフレームワークをの提案。
- 対エージェントが対個人になっても良いわけで興味深い発想。
- プロジェクトサイトはComputer-Use Agents as Judges for Generative User Interface、リポジトリはGitHub – showlab/AUI: Computer-Use Agents as Judges for Generative UI