How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse Occupations 

  • How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse Occupations [112.6]
    エージェントが人間とエージェントの労働者の直接比較を初めて提示することで、エージェントがどのように人間の仕事をするかを考察する。 結果が88.3%速く、コストが90.4-96.2%低いことが判明した。
    論文  参考訳(メタデータ)   (Sun, 26 Oct 2025 18:10:22 GMT)
  • 人間とエージェントの比較、様々な課題も指摘されているが「Compared to an average human worker, agents deliver work 88.3–96.6% faster and at 90.4–96.2% lower costs. Our induced workflows naturally suggest a division of labor: readily programmable steps can be delegated to agents for efficiency, while humans handle the steps where agents fall short.」との結果はやや驚き。
    • 「One quarter of human activities we studied involve AI tools, with most used for augmentation purposes: integrating AI into existing workflows with minimal disruption, while improving efficiency by 24.3%. In contrast, AI automation markedly reshapes workflows and slows human work by 17.7%, largely due to additional time spent on verification and debugging (Figure 5).」はまぁそんなものか、という印象はあるが。。
  • ツールキットが公開されている。GitHub – zorazrw/workflow-induction-toolkit: A toolkit to induce interpretable workflows from raw computer-use activities.
  • Remote Labor Index: Measuring AI Automation of Remote Work [46.5]
    AIは、研究指向の知識と推論のベンチマークを急速に進歩させたが、これらの成果が経済的価値と自動化にどのように変換されるかは、まだ不明である。 これを測定するために、実世界の経済的に価値のあるプロジェクトからなる広範囲にわたるマルチセクタベンチマークであるRemote Labor Index (RLI)を導入する。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 17:58:04 GMT)
  • こちらは「RLI establishes an economically grounded measure of AI automation capacity, with 240 projects spanning 23 domains of digital freelance work, each anchored in demonstrated market value. Frontier AI agents perform near the floor on RLI, achieving an automation rate of less than 3%, revealing a stark gap between progress on computer use evaluations and the ability to perform real and economically valuable work.」と指摘。

Evaluating Long-Term Memory for Long-Context Question Answering

  • Evaluating Long-Term Memory for Long-Context Question Answering [100.1]
    質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。 以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
    論文  参考訳(メタデータ)   (Mon, 27 Oct 2025 18:03:50 GMT)
  • 長文におけるMemoryの有効性、「Our findings show that memory-augmented approaches re- duce token usage by over 90% while maintain- ing competitive accuracy. Memory architecture complexity should scale with model capability, with small foundation models benefitting most from RAG, and strong instruction-tuned rea- soning model gaining from episodic learning through reflections and more complex agentic semantic memory.」とモデルサイズの影響、タスクによるFull contextとの性能差も興味深い。

Co-Evolving Latent Action World Models, SPICE : Self-Play In Corpus Environments Improves Reasoning, Critique-RL, Parrot

先週、2つの異なるものを共に進化させ性能向上を図る論文が複数出ていた。このようなフレームワークとしてはGANが有名ではあるが、LLM basedな時代でもしばしば見るアプローチで非常に興味深い。

  • Co-Evolving Latent Action World Models [57.5]
    学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。 本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。 世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 12:28:40 GMT)
  • 「We propose CoLA-World, the first framework that successfully enables joint training of a latent action model with a pre-trained video-generation-based world model.」とlatent action model (LAM) と world modelを共に生成
  • SPICE: Self-Play In Corpus Environments Improves Reasoning [58.8]
    SPICEは、単一のモデルが2つの役割で機能する強化学習フレームワークである。 チャレンジャーは、様々な推論タスクを生成するために、大きなコーパスから文書をマイニングする。 本分析は,SPICEにおける文書の基盤化が,ますます困難な目標を連続的に生み出す上で,いかに重要な要素であるかを明らかにする。
    論文  参考訳(メタデータ)   (Tue, 28 Oct 2025 17:46:16 GMT)
  • 「SPICE is a self-play framework where a single LLM, πθ, acts in two roles: a Challenger (role = C), which poses difficult questions, and a Reasoner (role = R), which tries to correctly answer such questions. The Challenger uses a raw document (which does not contain existing questions or labels) from a corpus to generate a (q, a∗) pair.」とChallengerとReasonerを使う強化学習フレームワーク
  • Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning [89.6]
    より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCrytique-RLを提案する。 提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。 さまざまなタスクやモデルに対する実験では、Cristique-RLが大幅なパフォーマンス改善を実現している。
    論文  参考訳(メタデータ)   (Tue, 28 Oct 2025 11:37:01 GMT)
  • 「In stage I, it reinforces the discriminability of the critic with direct rule-based reward signals; in stage II, it introduces indirect rewards based on actor refinement to improve the critic’s helpfulness, while maintaining its discriminability via appropriate regularization. Extensive experiments across various tasks and models show that Critique-RL delivers substantial performance improvements.」と2ステージ構成の批評家モデルの強化(Actor側は更新されないので他とは異なるが)
  • リポジトリはGitHub – WooooDyy/Critique-RL
  • Parrot: A Training Pipeline Enhances Both Program CoT and Natural Language CoT for Reasoning [69.0]
    自然言語のチェーン・オブ・シント(N-CoT)とプログラム・チェーン・オブ・シント(P-CoT)は、数学的な推論問題を解決するために、大規模言語モデル(LLM)の2つの主要なパラダイムとして登場した。 数学的問題に対する新しいトレーニングパイプラインであるParrotを提案する。
    論文  参考訳(メタデータ)   (Wed, 29 Oct 2025 09:23:17 GMT)
  • Natural language chain-of-thought (N-CoT) とProgram chain-of-thought (P-CoT)の両強化、「The pipeline comprises three target-designed subtasks: Information Retrieval trains the model to concentrate on key information within problem. P-CoT Reasoning utilizes the information to generate variable well- defined code solutions. Paradigm Conversion enhances N-CoT with concise P-CoT and its intermediate outputs.」の3サブタスクを前提としている。