コンテンツへスキップ
- The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.9]
大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。 本稿では,2次元から合成データを評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (Sun, 25 Jan 2026 06:40:25 GMT)
- 合成データに関するサーベイであり、「 the LLM Data Auditor framework, as shown in Figure 1 and 2. This framework organizes various data types through a unified structure encompassing 5 core components: LLM-based data generation methods, quality metrics, trustworthy metrics, evaluation gaps, and data usage」というフレームワークを通しての整理。
- リポジトリはAnonymized Repository – Anonymous GitHub
- DeepSeek-OCR 2: Visual Causal Flow [15.6]
本稿では,新しいエンコーダ-ディープエンコーダV2の実現可能性を検討するためにDeepSeek-OCR 2を提案する。 DeepEncoder V2は、エンコーダに因果推論機能を持たせるように設計されており、コンテンツ解釈の前に視覚トークンをインテリジェントに並べ替えることができる。 本研究は,2次元因果推論構造を用いて2次元画像理解を効果的に実現できるか否かという,新しいパラダイムを探求する。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 12:46:07 GMT)
- DeepEncoder V2とDeepSeek-OCR 2の提案。強力な性能を達成。特にDeepEncode V2には「DeepEncoder V2, featuring several key innovations: (1) we replace the CLIP [37] component in DeepEncoder [54] with a compact LLM [48] architecture, as illustrated in Figure 1, to achieve visual causal flow; (2) to enable parallelized processing, we introduce learnable queries [10], termed causal flow tokens, with visual tokens prepended as a prefix—through a customized attention mask, visual tokens maintain global receptive fields, while causal flow tokens can obtain visual token reordering ability; (3) we maintain equal cardinality between causal and visual tokens (with redundancy such as padding and borders) to provide sufficient capacity for re-fixation; (4) only the causal flow tokens—the latter half of the encoder outputs—are fed to the LLM [24] decoder, enabling cascade causal-aware visual understanding.」とかなりの変更がなされている。
- リポジトリはGitHub – deepseek-ai/DeepSeek-OCR-2: Visual Causal Flow
- MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation [84.5]
MALLOCは、メモリを意識したロングシーケンス圧縮のベンチマークである。 最先端のレコメンデータに統合され、再現性と評価のプラットフォームを可能にする。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 04:11:50 GMT)
- 「In this work, we introduce MALLOC, the first comprehensive benchmark that systematically restructures the landscape of long- sequence compression through a novel taxonomy centered on memory allocation granularity. By categorizing existing compression techniques within a unified framework and evaluating them along the dimensions of predictive accuracy, computational cost, memory utilization, and scalability, we deliver a comprehensive view of the practical trade-offs underlying long-sequence recommendation.」とメモリ機能を意識したベンチマーク。本論文が対象としているのは、モデルそのものによる長文圧縮での扱いであり、AgenticRAGの派生形としてのAI Memoryとは異なる。
- リポジトリはAnonymized Repository – Anonymous GitHub
- Continual GUI Agents [47.9]
これはGUIエージェントがシフトしたドメインと解像度の下で連続的な学習を行うのに必要な新しいタスクである。 既存のメソッドは、UIインタラクションポイントとフラックスシナリオのリージョンの多様性のため、GUIディストリビューションが時間とともに変化するため、安定した基盤を維持することができません。 本稿では2つの新しい報酬を通じて連続的な学習を安定化する新しい強化微調整フレームワークであるGUI-AiF(GUI-AiF)について紹介する。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 16:06:31 GMT)
- 流動的なGUIという問題意識のもと、「To address this, we introduce GUI-Anchoring in Flux (GUI-AiF), a new reinforcement fine-tuning framework that stabilizes continual learning through two novel rewards: Anchoring Point Reward in Flux (APR-iF) and Anchoring Region Re- ward in Flux (ARR-iF).」を提案。
- AMA: Adaptive Memory via Multi-Agent Collaboration [54.5]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。 AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (Wed, 28 Jan 2026 08:09:49 GMT)
- 「The Retriever routes inputs to optimal granularities based on intent. The Judge audits content relevance to trigger feedback loops and detects conflicts. The Refresher executes updates or deletions to rectify these inconsistencies. Finally, the Constructor synthesizes the validated context into structured memory entries.」と4エージェントからなるメモリ管理フレームワーク。
- CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding [71.9]
マルチベクトル埋め込み構築のための自動回帰生成手法CausalEmbedを提案する。 コントラストトレーニング中に反復的マージン損失を導入することで、CausalEmbedは埋め込みモデルにコンパクトでよく構造化された表現を学ぶことを奨励する。 本手法は,数十個の視覚トークンを用いた効率的なVDR処理を実現し,トークン数を30~15倍削減する。
論文 参考訳(メタデータ) (Thu, 29 Jan 2026 04:47:27 GMT)
- 「In this paper, we propose a novel paradigm, CAUSALEMBED, which generates multi-vector embeddings in an auto-regressive manner with significantly shorter sequence lengths. Extensive experiments demonstrate that CAUSALEMBED outperforms pruning-based baselines, achieving superior performance at an extreme 30× compression ratio.」とARモデルを活用した効率的なEmbedding手法の提案。
- Agentic Reasoning for Large Language Models [122.8]
推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。 大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。 エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
論文 参考訳(メタデータ) (Sun, 18 Jan 2026 18:58:23 GMT)
- 「Agentic reasoning positions reasoning as the central mechanism of intelligent agents, spanning foundational capabilities (planning, tool use, and search), self-evolving adaptation (feedback, and memory-driven adaptation), and collective coordination (multi-agent collaboration), realizable through either in-context orchestration or post-training optimization.」として整理されたサーベイ。In-context Reasoning、Post-training Reasoningの両方を含む。
- リポジトリはGitHub – weitianxin/Awesome-Agentic-Reasoning
- AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.5]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。 エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。 AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (Mon, 26 Jan 2026 13:45:41 GMT)
- 「AgentDoG provides fine-grained and contextual monitoring across agents’ trajectories, including malicious tool execution and prompt injection. More crucially, AgentDoG provides a more transparent perspective to understand why an agent takes a particular action in an unsafe or seemingly safe but unreasonible way,」と軌跡レベルで評価していく高性能なガードレールの提案。この分野の外観を知るにも良い論文だと思う。
- リポジトリはGitHub – AI45Lab/AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security