Aligning Agentic World Models via Knowledgeable Experience Learning

  • Aligning Agentic World Models via Knowledgeable Experience Learning [68.9]
    環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。 WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Mon, 19 Jan 2026 17:33:31 GMT)
  • 「 our World Knowledge Repository accumulates two distinct types of experience. First, Process Experience is derived from prediction errors to enforce physical feasibility, ensuring internal simulations strictly adhere to the immutable laws of reality. Second, Goal Experience is distilled from successful trajectories to serve as procedural heuristics, guiding the simulation to efficiently converge toward the task objective.」と2種類の情報を用いるタイプの手法
  • リポジトリはGitHub – zjunlp/WorldMind: Aligning Agentic World Models via Knowledgeable Experience Learning、プロジェクトサイトはWorldMind: Aligning Agentic World Models

HumanLLM: Towards Personalized Understanding and Simulation of Human Nature

  • HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.6]
    HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。 私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。 次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
    論文  参考訳(メタデータ)   (Thu, 22 Jan 2026 09:27:27 GMT)
  • 「we introduce HumanLLM, a foundation model specifically designed to advance the personalized understanding and simulation of human cognition and behaviors.」と近年流行りつつあるLLM basedな社会シミュレーションのためのモデルの提案。「Extensive experiments across in-domain tasks, out-of-domain benchmarks, and real-world applications demonstrate that HumanLLM is a superior social data generator, human explainer, and user simulator. 」と有効性を主張。
  • リポジトリはAnonymized Repository – Anonymous GitHubhttps://aka.ms/humanllm

The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios 

  • The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios [34.3]
    本稿では,新しい環境を継続的に探索する「訓練」エージェントをシミュレートする動的評価環境である方法を紹介する。 従来のベンチマークとは違って,(1)優先度の異なるストリーミングタスクのコンテキストアウェアスケジューリング,(2)能動的探索による幻覚の低減のための巧妙な情報取得,(3)規則に基づく動的生成タスクから一般化戦略を抽出した継続的進化,の3つの側面に沿ってエージェントを評価する。 私たちの研究は、エージェントの信頼性を評価するためのフレームワークを確立し、静的テストから現実的な実運用指向のシナリオに評価をシフトします。
    論文  参考訳(メタデータ)   (Tue, 13 Jan 2026 03:09:18 GMT)
  • 「We introduce Trainee-Bench, a benchmark designed to bridge the gap between static setups and dynamic and uncertain workplace scenarios. Constructed via a bottom-up strategy that links atomic skills to holistic workflows, Trainee-Bench orchestrates rule-based meta-task templates into complex, time-constrained scenarios, supported by an auto- mated verification mechanism for rigorous assessment.」というベンチマーク。この手のベンチマークが一定成立できるようになった進化がすごいと思いつつ、公開モデルはかなり苦労している。
  • リポジトリはGitHub – KnowledgeXLab/EvoEnv