コンテンツへスキップ
- CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding [71.9]
マルチベクトル埋め込み構築のための自動回帰生成手法CausalEmbedを提案する。 コントラストトレーニング中に反復的マージン損失を導入することで、CausalEmbedは埋め込みモデルにコンパクトでよく構造化された表現を学ぶことを奨励する。 本手法は,数十個の視覚トークンを用いた効率的なVDR処理を実現し,トークン数を30~15倍削減する。
論文 参考訳(メタデータ) (Thu, 29 Jan 2026 04:47:27 GMT)
- 「In this paper, we propose a novel paradigm, CAUSALEMBED, which generates multi-vector embeddings in an auto-regressive manner with significantly shorter sequence lengths. Extensive experiments demonstrate that CAUSALEMBED outperforms pruning-based baselines, achieving superior performance at an extreme 30× compression ratio.」とARモデルを活用した効率的なEmbedding手法の提案。
- Agentic Reasoning for Large Language Models [122.8]
推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。 大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。 エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
論文 参考訳(メタデータ) (Sun, 18 Jan 2026 18:58:23 GMT)
- 「Agentic reasoning positions reasoning as the central mechanism of intelligent agents, spanning foundational capabilities (planning, tool use, and search), self-evolving adaptation (feedback, and memory-driven adaptation), and collective coordination (multi-agent collaboration), realizable through either in-context orchestration or post-training optimization.」として整理されたサーベイ。In-context Reasoning、Post-training Reasoningの両方を含む。
- リポジトリはGitHub – weitianxin/Awesome-Agentic-Reasoning
- AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.5]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。 エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。 AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (Mon, 26 Jan 2026 13:45:41 GMT)
- 「AgentDoG provides fine-grained and contextual monitoring across agents’ trajectories, including malicious tool execution and prompt injection. More crucially, AgentDoG provides a more transparent perspective to understand why an agent takes a particular action in an unsafe or seemingly safe but unreasonible way,」と軌跡レベルで評価していく高性能なガードレールの提案。この分野の外観を知るにも良い論文だと思う。
- リポジトリはGitHub – AI45Lab/AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
- Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.2]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。 ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。 将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (Sat, 17 Jan 2026 01:29:30 GMT)
- 「we present Terminal-Bench 2.0: a carefully curated hard benchmark composed of 89 tasks in computer terminal environments inspired by problems from real workflows. Each task features a unique environment, human- written solution, and comprehensive tests for verification.」というベンチマーク。現時点での最高性能はDroid (GPT-5.2)、ベースモデルもだがエージェントフレームワークも良く寄与していそうな結果。
- プロジェクトサイトはTerminal-Bench
- Self-Improving Pretraining: using post-trained models to pretrain better models [40.2]
本稿では、文書をストリームし、強化学習(RL)を用いて次のK生成トークンを各ステップで改善する新しい事前学習手法を提案する。 実験では, 実効性と安全性の点で標準事前訓練よりも36.2%と18.5%の相対的な改善が得られ, 総生産品質の86.3%まで向上した。
論文 参考訳(メタデータ) (Thu, 29 Jan 2026 07:09:30 GMT)
- 「Our work re-envisions pretraining by using a strong post-trained model to provide superior supervision signals. This works in two ways: (i) by providing rewrites on the original streaming pretrain data; and (ii) by acting as a judge. (i) We showed that such a self-improving setup can improve the factuality, safety and overall generation quality of pretrained models.」というフレームの提案。効果はありそうと思いつつ、これを実行できる研究機関がどれくらいあるかは気になるところ。Discussionの「Going further, there are other aspects of a powerful model one may wish for pretraining to also capture, i.e. other skills! – an obvious one being stronger reasoning ability.」を含めて・・・。
- MoCo: A One-Stop Shop for Model Collaboration Research [132.5]
MoCo: 大規模なモデルコラボレーションアルゴリズムの実行、ベンチマーク、比較を行う、ワンストップPythonライブラリ。 MoCoは26のモデルコラボレーションメソッドを備えており、さまざまなレベルのクロスモデル情報交換が可能である。 MoCoによる大規模な実験は、ほとんどのコラボレーション戦略が、コラボレーションなしでモデルより優れていることを示している。 私たちは、MoCoをオープンでモジュール化され、分散化され、協力的なAIの未来を探求するための、貴重なツールキットとして想定しています。
論文 参考訳(メタデータ) (Thu, 29 Jan 2026 04:36:52 GMT)
- 「MOCO features a wide range of 26 model collaboration algorithms, spanning four levels of collaboration defined by the level of information exchange: API-level (e g , routing (Ong et al , 2025) and switching (Feng et al , 2025d; Huang et al , 2026)), text-level (e g , debate (Du et al , 2023) and cooperate (Yu et al , 2025)), logit-level (e g , collective decoding (Liu et al , 2024a)), and weight- level (e g , merging (Yadav et al , 2024) and parameter- space search (Feng et al , 2025c)).」とマルチエージェントシステム導入のためのフレームワーク。「Extensive experiments with MOCO demonstrate that model collaboration is a promising path towards modular and com- positional AI systems. Model collaboration outperforms individual models in 61.0% of cases across diverse (model, data) settings, with the most successful algorithms outperforming in almost every evaluation domain by up to 25.8%.」と効果も確認している。
- リポジトリはGitHub – BunsenFeng/model_collaboration