GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents 

  • GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents [38.4]
    GUIはよりリッチでアクセスしやすいプライベート情報を公開し、プライバシーリスクはシーケンシャルなシーンにわたるインタラクションの軌跡に依存する。 本稿では,プライバシ認識,プライバシ保護,保護下のタスク実行という,プライバシ保護GUIエージェントのための3段階フレームワークを提案する。 この結果は,GUIエージェントにとって重要なボトルネックとして,プライバシ認識に注目した。
    論文  参考訳(メタデータ)   (Mon, 26 Jan 2026 11:33:40 GMT)
  • 可能性があるものリスクも大きいGUIエージェントに対するプライバシー保護のためのフレームワークおよびベンチマークの提案。「these results underscore privacy recognition as a critical and unresolved bottleneck in GUI privacy protection pipelines, limiting the reliability of subsequent protection mechanisms.」これはそうだろうと思うし、今後解決していく必要がある。
  • プロジェクトサイトはGUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents

FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions 

  • FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions [147.0]
    FRoM-W1は、自然言語を用いた一般的なヒューマノイド全体の動作制御を実現するために設計されたオープンソースのフレームワークである。 我々はUnitree H1とG1ロボット上でFRoM-W1を広範囲に評価した。 その結果,HumanML3D-Xベンチマークにおいて,人体全体の動作生成に優れた性能を示した。
    論文  参考訳(メタデータ)   (Mon, 19 Jan 2026 07:59:32 GMT)
  • 「We introduce H-GPT, a 9B model that generates high quality whole-body human motions from natural language instructions. Enhanced with CoT technology, it achieves versatile instruction understanding.」と自然言語で指示可能な人間型ロボットのためのモデルの提案。ベースはllama3.1 8Bとのこと。
  • プロジェクトサイトはFRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions

Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning 

  • Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning [105.4]
    VIGA(Vision-as-Inverse-Graphic Agent)は、クローズドループの書き込み-ラン-レンダー-補完-修正手順によってシーンを再構築または編集する。 長距離推論をサポートするために、VIGAは(i)ジェネレータと検証ロールを交換するスキルライブラリと(ii)進化するコンテキストメモリを組み合わせた。
    論文  参考訳(メタデータ)   (Fri, 16 Jan 2026 09:11:55 GMT)
  • 反復的に改善(we present VIGA (Vision-as Inverse-Graphic Agent) that starts from an empty world and reconstructs or edits scenes through a closed-loop write→run→render→compare→revise procedure.)していくタイプの3D再構成手法。
  • リポジトリはVIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

Toward Efficient Agents: Memory, Tool learning, and Planning

Large-Scale Multidimensional Knowledge Profiling of Scientific Literature 

  • Large-Scale Multidimensional Knowledge Profiling of Scientific Literature [46.2]
    2020年から2025年の間に、22の主要なカンファレンスから10万以上の論文をまとめてまとめました。 分析では,安全性の向上,マルチモーダル推論,エージェント指向研究など,いくつかの顕著な変化に注目した。 これらの発見は、AI研究の進化に関するエビデンスベースの見解を提供し、より広範なトレンドを理解し、新たな方向性を特定するためのリソースを提供する。
    論文  参考訳(メタデータ)   (Wed, 21 Jan 2026 16:47:05 GMT)
  • 論文の大規模分析、基本的にはスタンダードなプロセスのように見えるがLLMを効果的に使っている点に注目。「Tsinghua University emphasizes directions such as knowledge distillation, graph neural networks, adversarial training, domain adaptation, and model generalization, while Carnegie Mellon University demonstrates strong performance in areas like robotic grasping and manipulation strategies and causal discovery.」といったfindingsは面白い。
  • リポジトリはGitHub – xzc-zju/Profiling_Scientific_Literature

Towards Execution-Grounded Automated AI Research

  • Towards Execution-Grounded Automated AI Research [106.9]
    現在のLLMはしばしばもっともらしく見えるが効果のないアイデアを生成します。実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。 我々は、アイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。 本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
    論文  参考訳(メタデータ)   (Tue, 20 Jan 2026 22:35:44 GMT)
  • 「we develop a large-scale automated idea executor system that can implement research ideas for open-ended and realistic research problems. Using this automated executor, we conduct an in-depth analysis of how well LLM ideators can learn from execution feedback to improve effectiveness through evolutionary search and RL. Execution- guided evolutionary search is sample-efficient and effective, but shows limited scaling. RL from execution reward suffers from diversity collapse and does not improve the upperbound.」とのことで可能性とともに限界を感じる結果
  • リポジトリはGitHub – NoviScl/Automated-AI-Researcher

ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios 

  • ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios [8.3]
    ViDoRe v3は、視覚的にリッチなドキュメントコーパス上のマルチタイプクエリを特徴とする総合マルチモーダルRAGベンチマークである。 さまざまな専門家ドメインにまたがる10のデータセットをカバーしており、26,000のドキュメントページと3,099の人間認証クエリをペアにしている。
    論文  参考訳(メタデータ)   (Tue, 13 Jan 2026 15:00:33 GMT)
  • 「We introduce ViDoRe V3, a comprehensive multi- modal RAG benchmark featuring multi-type queries over visually rich document corpora. It covers 10 datasets across diverse professional domains, comprising 26,000 document pages paired with 3,099 human-verified queries, each available in 6 languages.」というベンチマーク。「Evaluating state-of-the-art RAG pipelines, we find that visual retrievers outperform textual ones, late interaction and textual reranking yield substantial gains, and visual context improves answer generation quality.」が意外。
  • リポジトリはvidore (Vidore)

YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models 

  • YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models [36.1]
    我々はYuFeng-XGuardについて紹介する。YuFeng-XGuardは大規模言語モデル(LLM)のための論理中心ガードレールモデルである。 YuFeng-XGuardは不透明な二項判定を生成する代わりに、明確なリスクカテゴリや信頼性スコアを含む構造化されたリスク予測を生成する。 リスク認識を政策執行から切り離す動的政策機構を導入し、モデルの再訓練なしに安全政策を調整できるようにした。
    論文  参考訳(メタデータ)   (Thu, 22 Jan 2026 02:23:18 GMT)
  • 「Instead of producing opaque binary judgments, YuFeng-XGuard generates structured risk predictions, including explicit risk categories and configurable confidence scores, accompanied by natural language explanations that expose the underlying reasoning process.」と詳細を出してくれるガードレール。
  • モデルはAlibaba-AAIG/YuFeng-XGuard-Reason-8B · Hugging Face

Aligning Agentic World Models via Knowledgeable Experience Learning

  • Aligning Agentic World Models via Knowledgeable Experience Learning [68.9]
    環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。 WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Mon, 19 Jan 2026 17:33:31 GMT)
  • 「 our World Knowledge Repository accumulates two distinct types of experience. First, Process Experience is derived from prediction errors to enforce physical feasibility, ensuring internal simulations strictly adhere to the immutable laws of reality. Second, Goal Experience is distilled from successful trajectories to serve as procedural heuristics, guiding the simulation to efficiently converge toward the task objective.」と2種類の情報を用いるタイプの手法
  • リポジトリはGitHub – zjunlp/WorldMind: Aligning Agentic World Models via Knowledgeable Experience Learning、プロジェクトサイトはWorldMind: Aligning Agentic World Models

HumanLLM: Towards Personalized Understanding and Simulation of Human Nature

  • HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.6]
    HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。 私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。 次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
    論文  参考訳(メタデータ)   (Thu, 22 Jan 2026 09:27:27 GMT)
  • 「we introduce HumanLLM, a foundation model specifically designed to advance the personalized understanding and simulation of human cognition and behaviors.」と近年流行りつつあるLLM basedな社会シミュレーションのためのモデルの提案。「Extensive experiments across in-domain tasks, out-of-domain benchmarks, and real-world applications demonstrate that HumanLLM is a superior social data generator, human explainer, and user simulator. 」と有効性を主張。
  • リポジトリはAnonymized Repository – Anonymous GitHubhttps://aka.ms/humanllm