CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding 

  • CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding [71.9]
    マルチベクトル埋め込み構築のための自動回帰生成手法CausalEmbedを提案する。 コントラストトレーニング中に反復的マージン損失を導入することで、CausalEmbedは埋め込みモデルにコンパクトでよく構造化された表現を学ぶことを奨励する。 本手法は,数十個の視覚トークンを用いた効率的なVDR処理を実現し,トークン数を30~15倍削減する。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 04:47:27 GMT)
  • 「In this paper, we propose a novel paradigm, CAUSALEMBED, which generates multi-vector embeddings in an auto-regressive manner with significantly shorter sequence lengths. Extensive experiments demonstrate that CAUSALEMBED outperforms pruning-based baselines, achieving superior performance at an extreme 30× compression ratio.」とARモデルを活用した効率的なEmbedding手法の提案。

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models 

Agentic Reasoning for Large Language Models

  • Agentic Reasoning for Large Language Models [122.8]
    推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。 大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。 エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
    論文  参考訳(メタデータ)   (Sun, 18 Jan 2026 18:58:23 GMT)
  • 「Agentic reasoning positions reasoning as the central mechanism of intelligent agents, spanning foundational capabilities (planning, tool use, and search), self-evolving adaptation (feedback, and memory-driven adaptation), and collective coordination (multi-agent collaboration), realizable through either in-context orchestration or post-training optimization.」として整理されたサーベイ。In-context Reasoning、Post-training Reasoningの両方を含む。
  • リポジトリはGitHub – weitianxin/Awesome-Agentic-Reasoning

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

  • AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.5]
    現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。 エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。 AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
    論文  参考訳(メタデータ)   (Mon, 26 Jan 2026 13:45:41 GMT)
  • 「AgentDoG provides fine-grained and contextual monitoring across agents’ trajectories, including malicious tool execution and prompt injection. More crucially, AgentDoG provides a more transparent perspective to understand why an agent takes a particular action in an unsafe or seemingly safe but unreasonible way,」と軌跡レベルで評価していく高性能なガードレールの提案。この分野の外観を知るにも良い論文だと思う。
  • リポジトリはGitHub – AI45Lab/AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces 

  • Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.2]
    Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。 ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。 将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
    論文  参考訳(メタデータ)   (Sat, 17 Jan 2026 01:29:30 GMT)
  • 「we present Terminal-Bench 2.0: a carefully curated hard benchmark composed of 89 tasks in computer terminal environments inspired by problems from real workflows. Each task features a unique environment, human- written solution, and comprehensive tests for verification.」というベンチマーク。現時点での最高性能はDroid (GPT-5.2)、ベースモデルもだがエージェントフレームワークも良く寄与していそうな結果。
  • プロジェクトサイトはTerminal-Bench

Qwen3-ASR Technical Report 

Self-Improving Pretraining: using post-trained models to pretrain better models

  • Self-Improving Pretraining: using post-trained models to pretrain better models [40.2]
    本稿では、文書をストリームし、強化学習(RL)を用いて次のK生成トークンを各ステップで改善する新しい事前学習手法を提案する。 実験では, 実効性と安全性の点で標準事前訓練よりも36.2%と18.5%の相対的な改善が得られ, 総生産品質の86.3%まで向上した。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 07:09:30 GMT)
  • 「Our work re-envisions pretraining by using a strong post-trained model to provide superior supervision signals. This works in two ways: (i) by providing rewrites on the original streaming pretrain data; and (ii) by acting as a judge. (i) We showed that such a self-improving setup can improve the factuality, safety and overall generation quality of pretrained models.」というフレームの提案。効果はありそうと思いつつ、これを実行できる研究機関がどれくらいあるかは気になるところ。Discussionの「Going further, there are other aspects of a powerful model one may wish for pretraining to also capture, i.e. other skills! – an obvious one being stronger reasoning ability.」を含めて・・・。

MoCo: A One-Stop Shop for Model Collaboration Research

  • MoCo: A One-Stop Shop for Model Collaboration Research [132.5]
    MoCo: 大規模なモデルコラボレーションアルゴリズムの実行、ベンチマーク、比較を行う、ワンストップPythonライブラリ。 MoCoは26のモデルコラボレーションメソッドを備えており、さまざまなレベルのクロスモデル情報交換が可能である。 MoCoによる大規模な実験は、ほとんどのコラボレーション戦略が、コラボレーションなしでモデルより優れていることを示している。 私たちは、MoCoをオープンでモジュール化され、分散化され、協力的なAIの未来を探求するための、貴重なツールキットとして想定しています。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 04:36:52 GMT)
  • 「MOCO features a wide range of 26 model collaboration algorithms, spanning four levels of collaboration defined by the level of information exchange: API-level (e g , routing (Ong et al , 2025) and switching (Feng et al , 2025d; Huang et al , 2026)), text-level (e g , debate (Du et al , 2023) and cooperate (Yu et al , 2025)), logit-level (e g , collective decoding (Liu et al , 2024a)), and weight- level (e g , merging (Yadav et al , 2024) and parameter- space search (Feng et al , 2025c)).」とマルチエージェントシステム導入のためのフレームワーク。「Extensive experiments with MOCO demonstrate that model collaboration is a promising path towards modular and com- positional AI systems. Model collaboration outperforms individual models in 61.0% of cases across diverse (model, data) settings, with the most successful algorithms outperforming in almost every evaluation domain by up to 25.8%.」と効果も確認している。
  • リポジトリはGitHub – BunsenFeng/model_collaboration

LongCat-Flash-Thinking-2601 Technical Report 

Genie 3, Advancing Open-source World Models, WorldBench

動画生成モデル → world modelへの進化は技術的に可能かどうかなど様々な論点があるが先週のGenie 3 — Google DeepMindは大きなニュースだったと思う。同時期のLingBot-Worldなどを含め検証が待たれる。ベンチマークも様々出ているが先週も物理的特性(定数や摩擦などパラメータ)を含めて評価可能なWorldBenhが出ていた。

  • Advancing Open-source World Models [92.2]
    LingBot-World(リンク)は、ビデオ生成から派生したオープンソースのワールドシミュレータである。 広い範囲の環境において、高い忠実度と堅牢なダイナミクスを維持している。 リアルタイムの対話性をサポートし、毎秒16フレームを生成すると1秒未満のレイテンシを実現する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 12:37:01 GMT)
  • Ant groupによるビデオ生成系world model。「Beyond visual synthesis, LingBot-World serves as a practical testbed for downstreams [1, 6, 20, 26, 29, 57, 58, 78, 92]. It supports promptable world events, allowing users to semantically steer global conditions and local dynamics via textual prompts. Furthermore, it facilitates the training of action agents and enables consistent 3D reconstruction from generated videos [34, 50, 83], validating its geometric integrity.」と言っているのがすごい。公開モデルであるのも特徴的。
  • リポジトリはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models、プロジェクトサイトはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models
  • WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models [17.8]
    We introduced WorldBench, a video-based benchmark designed for concept-specific, disentangled evaluation。 WorldBenchは、ビデオ生成と世界モデルの物理的推論能力を厳格に評価するための、より微妙でスケーラブルなフレームワークを提供する。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 05:31:02 GMT)
  • 「Our benchmark leverages both an intuitive physics and physical parameter estimation subset to provide greater insight into world model performance.」と物理特性(法則や定数等)を含めたベンチマーク。
  • プロジェクトサイトはWorldBench: How Close are World Models to the Physical World?