Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces 

  • Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.2]
    Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。 ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。 将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
    論文  参考訳(メタデータ)   (Sat, 17 Jan 2026 01:29:30 GMT)
  • 「we present Terminal-Bench 2.0: a carefully curated hard benchmark composed of 89 tasks in computer terminal environments inspired by problems from real workflows. Each task features a unique environment, human- written solution, and comprehensive tests for verification.」というベンチマーク。現時点での最高性能はDroid (GPT-5.2)、ベースモデルもだがエージェントフレームワークも良く寄与していそうな結果。
  • プロジェクトサイトはTerminal-Bench

Qwen3-ASR Technical Report 

Self-Improving Pretraining: using post-trained models to pretrain better models

  • Self-Improving Pretraining: using post-trained models to pretrain better models [40.2]
    本稿では、文書をストリームし、強化学習(RL)を用いて次のK生成トークンを各ステップで改善する新しい事前学習手法を提案する。 実験では, 実効性と安全性の点で標準事前訓練よりも36.2%と18.5%の相対的な改善が得られ, 総生産品質の86.3%まで向上した。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 07:09:30 GMT)
  • 「Our work re-envisions pretraining by using a strong post-trained model to provide superior supervision signals. This works in two ways: (i) by providing rewrites on the original streaming pretrain data; and (ii) by acting as a judge. (i) We showed that such a self-improving setup can improve the factuality, safety and overall generation quality of pretrained models.」というフレームの提案。効果はありそうと思いつつ、これを実行できる研究機関がどれくらいあるかは気になるところ。Discussionの「Going further, there are other aspects of a powerful model one may wish for pretraining to also capture, i.e. other skills! – an obvious one being stronger reasoning ability.」を含めて・・・。

MoCo: A One-Stop Shop for Model Collaboration Research

  • MoCo: A One-Stop Shop for Model Collaboration Research [132.5]
    MoCo: 大規模なモデルコラボレーションアルゴリズムの実行、ベンチマーク、比較を行う、ワンストップPythonライブラリ。 MoCoは26のモデルコラボレーションメソッドを備えており、さまざまなレベルのクロスモデル情報交換が可能である。 MoCoによる大規模な実験は、ほとんどのコラボレーション戦略が、コラボレーションなしでモデルより優れていることを示している。 私たちは、MoCoをオープンでモジュール化され、分散化され、協力的なAIの未来を探求するための、貴重なツールキットとして想定しています。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 04:36:52 GMT)
  • 「MOCO features a wide range of 26 model collaboration algorithms, spanning four levels of collaboration defined by the level of information exchange: API-level (e g , routing (Ong et al , 2025) and switching (Feng et al , 2025d; Huang et al , 2026)), text-level (e g , debate (Du et al , 2023) and cooperate (Yu et al , 2025)), logit-level (e g , collective decoding (Liu et al , 2024a)), and weight- level (e g , merging (Yadav et al , 2024) and parameter- space search (Feng et al , 2025c)).」とマルチエージェントシステム導入のためのフレームワーク。「Extensive experiments with MOCO demonstrate that model collaboration is a promising path towards modular and com- positional AI systems. Model collaboration outperforms individual models in 61.0% of cases across diverse (model, data) settings, with the most successful algorithms outperforming in almost every evaluation domain by up to 25.8%.」と効果も確認している。
  • リポジトリはGitHub – BunsenFeng/model_collaboration

LongCat-Flash-Thinking-2601 Technical Report 

Genie 3, Advancing Open-source World Models, WorldBench

動画生成モデル → world modelへの進化は技術的に可能かどうかなど様々な論点があるが先週のGenie 3 — Google DeepMindは大きなニュースだったと思う。同時期のLingBot-Worldなどを含め検証が待たれる。ベンチマークも様々出ているが先週も物理的特性(定数や摩擦などパラメータ)を含めて評価可能なWorldBenhが出ていた。

  • Advancing Open-source World Models [92.2]
    LingBot-World(リンク)は、ビデオ生成から派生したオープンソースのワールドシミュレータである。 広い範囲の環境において、高い忠実度と堅牢なダイナミクスを維持している。 リアルタイムの対話性をサポートし、毎秒16フレームを生成すると1秒未満のレイテンシを実現する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 12:37:01 GMT)
  • Ant groupによるビデオ生成系world model。「Beyond visual synthesis, LingBot-World serves as a practical testbed for downstreams [1, 6, 20, 26, 29, 57, 58, 78, 92]. It supports promptable world events, allowing users to semantically steer global conditions and local dynamics via textual prompts. Furthermore, it facilitates the training of action agents and enables consistent 3D reconstruction from generated videos [34, 50, 83], validating its geometric integrity.」と言っているのがすごい。公開モデルであるのも特徴的。
  • リポジトリはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models、プロジェクトサイトはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models
  • WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models [17.8]
    We introduced WorldBench, a video-based benchmark designed for concept-specific, disentangled evaluation。 WorldBenchは、ビデオ生成と世界モデルの物理的推論能力を厳格に評価するための、より微妙でスケーラブルなフレームワークを提供する。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 05:31:02 GMT)
  • 「Our benchmark leverages both an intuitive physics and physical parameter estimation subset to provide greater insight into world model performance.」と物理特性(法則や定数等)を含めたベンチマーク。
  • プロジェクトサイトはWorldBench: How Close are World Models to the Physical World?

GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents 

  • GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents [38.4]
    GUIはよりリッチでアクセスしやすいプライベート情報を公開し、プライバシーリスクはシーケンシャルなシーンにわたるインタラクションの軌跡に依存する。 本稿では,プライバシ認識,プライバシ保護,保護下のタスク実行という,プライバシ保護GUIエージェントのための3段階フレームワークを提案する。 この結果は,GUIエージェントにとって重要なボトルネックとして,プライバシ認識に注目した。
    論文  参考訳(メタデータ)   (Mon, 26 Jan 2026 11:33:40 GMT)
  • 可能性があるものリスクも大きいGUIエージェントに対するプライバシー保護のためのフレームワークおよびベンチマークの提案。「these results underscore privacy recognition as a critical and unresolved bottleneck in GUI privacy protection pipelines, limiting the reliability of subsequent protection mechanisms.」これはそうだろうと思うし、今後解決していく必要がある。
  • プロジェクトサイトはGUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents

FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions 

  • FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions [147.0]
    FRoM-W1は、自然言語を用いた一般的なヒューマノイド全体の動作制御を実現するために設計されたオープンソースのフレームワークである。 我々はUnitree H1とG1ロボット上でFRoM-W1を広範囲に評価した。 その結果,HumanML3D-Xベンチマークにおいて,人体全体の動作生成に優れた性能を示した。
    論文  参考訳(メタデータ)   (Mon, 19 Jan 2026 07:59:32 GMT)
  • 「We introduce H-GPT, a 9B model that generates high quality whole-body human motions from natural language instructions. Enhanced with CoT technology, it achieves versatile instruction understanding.」と自然言語で指示可能な人間型ロボットのためのモデルの提案。ベースはllama3.1 8Bとのこと。
  • プロジェクトサイトはFRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions

Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning 

  • Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning [105.4]
    VIGA(Vision-as-Inverse-Graphic Agent)は、クローズドループの書き込み-ラン-レンダー-補完-修正手順によってシーンを再構築または編集する。 長距離推論をサポートするために、VIGAは(i)ジェネレータと検証ロールを交換するスキルライブラリと(ii)進化するコンテキストメモリを組み合わせた。
    論文  参考訳(メタデータ)   (Fri, 16 Jan 2026 09:11:55 GMT)
  • 反復的に改善(we present VIGA (Vision-as Inverse-Graphic Agent) that starts from an empty world and reconstructs or edits scenes through a closed-loop write→run→render→compare→revise procedure.)していくタイプの3D再構成手法。
  • リポジトリはVIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

Toward Efficient Agents: Memory, Tool learning, and Planning