- Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale [26.8]
AIエージェントフレームワークの台頭はエージェントスキル、命令を含むモジュールパッケージ、エージェント機能を動的に拡張する実行可能なコードを導入した。 このアーキテクチャは強力なカスタマイズを可能にするが、スキルは暗黙の信頼と最小限の拒否によって実行され、重要なが不適合なアタックサーフェスを生み出す。 2つの主要な市場から42,447のスキルを収集し、この新興エコシステムの最初の大規模な経験的セキュリティ分析を行います。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 12:31:52 GMT) - 「We conduct the first large-scale empirical security analysis of this emerging ecosystem, collecting 42,447 skills from two major mar- ketplaces and systematically analyzing 31,132 using SkillScan, a multi-stage detection framework integrating static analysis with LLM-based semantic classification. Our findings reveal pervasive security risks: 26.1% of skills contain at least one vulnerability, spanning 14 distinct patterns across four categories—prompt injection, data exfiltration, privilege escalation, and supply chain risks. Data exfiltration (13.3%) and privilege escalation (11.8%) are most prevalent, while 5.2% of skills exhibit high-severity patterns strongly suggesting malicious intent.」となかなか衝撃的な報告。。
Agent-as-a-Judge
- Agent-as-a-Judge [20.9]
LLM-as-a-Judgeは、スケーラブルな評価に大規模言語モデルを活用することで、AI評価に革命をもたらした。 評価が複雑化し、専門化され、多段階化されるにつれて、LLM-as-a-Judgeの信頼性は、固有のバイアス、浅いシングルパス推論、現実世界の観測に対する評価の欠如によって制約されている。 これはエージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)への移行を触媒し、エージェント・ジャッジは計画、ツール強化された検証、マルチエージェント・コラボレーション、永続メモリを採用し、より堅牢で検証可能な、ニュアンスな評価を可能にする。
論文 参考訳(メタデータ) (Thu, 08 Jan 2026 16:58:10 GMT) - 「We identify and characterize the shift from LLM- as-a-Judge to Agent-as-a-Judge and summarize the agentic judges’ development trend into three progressive stages」と、最近のLLM as a judgeの進化がよく分かるサーベイ。
- リポジトリはGitHub – ModalityDance/Awesome-Agent-as-a-Judge: “A Survey on Agent-as-a-Judge”
Structured Knowledge Representation through Contextual Pages for Retrieval-Augmented Generation
- Structured Knowledge Representation through Contextual Pages for Retrieval-Augmented Generation [53.8]
PAGERは、RAGのためのページ駆動の自律的知識表現フレームワークである。 関連文書を反復的に検索して洗練し、各スロットをポップアップさせ、最終的にコヒーレントなページを構成する。 実験の結果、PAGERはすべてのRAGベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 11:44:31 GMT)]a - 「PAGER first prompts the LLM to draw on its parametric knowledge to con- struct a structured cognitive outline for the target question. This outline consists of multiple slots, each representing a distinct aspect of the potentially relevant knowledge needed to answer the question. Then PAGER employs an iterative knowledge completion mechanism to iteratively retrieve supporting documents for each slot, refine them into concise knowledge evidence, and fill the corresponding slot in the page. This iterative process continues until all slots are filled with the corresponding knowledge evidence. Finally, PAGER uses this structured page as contextual knowledge to guide the LLM to answer the given question」というフレームワークの提案。Deep Researchのような動き。
- リポジトリはGitHub – OpenBMB/PAGER
Dr. Zero: Self-Evolving Search Agents without Training Data
- Dr. Zero: Self-Evolving Search Agents without Training Data [34.9]
我々は,検索エージェントがトレーニングデータなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介した。 特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから問題解決者を訓練する。 トレーニング効率を向上させるため、ホップ群相対ポリシー最適化(HRPO)も導入する。
論文 参考訳(メタデータ) (Sun, 11 Jan 2026 20:27:55 GMT) - 「We introduced Dr. Zero, a data-free self-evolution framework that enhances the reasoning and search capabilities of language agents. By utilizing an iterative proposer-solver training paradigm, Dr. Zero autonomously generates diverse and increasingly challenging open-domain questions without relying on training data. In addition, the proposed HRPO effectively addresses the computational bottlenecks of multi-turn tool use, enabling efficient training by clustering structurally similar queries to estimate advantages.」とproposerとsolverを分けるアプローチ。
- リポジトリはGitHub – facebookresearch/drzero: Dr. Zero Self-Evolving Search Agents without Training Data
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
- Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning [97.3]
我々は,動詞化可能な潜在推論により,コンパクトかつ高性能な計画を実現する効率的な推論フレームワークであるFast-ThinkActを提案する。 様々な具体的操作と推論ベンチマークの実験により、Fast-ThinkActは最大89.3%の推論遅延で強いパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 18:59:59 GMT) - 「How to preserve reasoning capability while enabling compact representations that properly capture essential spatial-temporal dynamics remains a crucial challenge for reasoning VLA models. In this paper, we propose Fast-ThinkAct, an efficient embodied reasoning framework for Vision-Language-Action tasks that achieves compact yet expressive planning through verbalizable latent reasoning.」と推論過程をコンパクトにするフレームワークの提案
- プロジェクトサイトはFast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection
- All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection [67.9]
RFC Benchは、現実的なニュースの下で財務的な誤情報に関する大規模な言語モデルを評価するためのベンチマークである。 このベンチマークでは、2つの補完的なタスクが定義されている。
論文 参考訳(メタデータ) (Wed, 07 Jan 2026 18:18:28 GMT) - 金融の誤情報検知を目指したベンチマーク。「The benchmark defines two complementary tasks: reference-free misinformation detection and comparison-based diagnosis using paired original–perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative con- text is available, while reference-free settings expose significant weaknesses, including un- stable predictions and elevated invalid outputs.
These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC-BENCH provides a structured testbed for studying reference-free reasoning and advancing more reliable financial misinformation detection in real-world settings.」 - リポジトリはGitHub – lzw108/FMD: This is a continuous project on Financial Misinformation Detection (FMD).
Ministral 3, Molmo2, STEP3-VL
OpenAIの広告モデル(ChatGPT Go が登場、世界中で利用可能に | OpenAI)、LLMインタフェースのオープンな仕様(Open Responses、XユーザーのOpenAI Developersさん: 「Today we’re announcing Open Responses: an open-source spec for building multi-provider, interoperable LLM interfaces built on top of the original OpenAI Responses API. ✅ Multi-provider by default ✅ Useful for real-world workflows ✅ Extensible without fragmentation Build https://t.co/SJiBFx1BOF」 / X)、AnthropicのCowork(Introducing Cowork | Claude)、Appleの基盤モデルにGeminiが採用?などビジネス的に興味深いニュースが多かった。
オープンなモデルだとMinistral3やMolmo2、STEP3-VL-10BとMLLM関連の論文発表があった。いずれもサイズと性能のバランスが良く、期待が持てる。
広範なモデルを検証しているA Safety Reportにも要注目。
- Ministral 3 [159.0]
Ministral 3は、計算およびメモリ制約のあるアプリケーションのためのパラメータ効率の高い高密度言語モデルのファミリーである。 汎用目的のための事前訓練されたベースモデル、微調整された命令モデル、複雑な問題解決のための推論モデルである。 各モデルはイメージ理解機能を備えており、すべてApache 2.0ライセンスで提供されている。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 14:06:03 GMT) - Mistralからの発表。「A key component of Ministral 3 is our Cascade Distillation training strategy, an iterative pruning and distillation method, which progressively transfers pretrained knowledge from a large parent model down to a family of compact children models. Our recipe allows us to achieve performance that is competitive with models which had a much larger training budget.」とのこと
- プロジェクトサイトはIntroducing Mistral 3 | Mistral AI、モデルはMinistral 3 – a mistralai Collection
- Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding [73.5]
Molmo2はビデオ言語モデル(VLM)の新たなファミリーであり、オープンソースモデルの中でも最先端の製品である。 単一画像、マルチイメージ、ビデオタスクにおけるポイント駆動グラウンドリングにおいて、例外的な新機能を示す。 私たちの最高の8Bモデルは、ショートビデオ、カウント、キャプションでオープンウェイトとデータモデルのクラスで他よりも優れており、ロングビデオでは競争力があります。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 17:27:44 GMT) - Ai2の最新VLM、ver1から大きく性能を上げている。
- リポジトリはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model、モデルはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model
- STEP3-VL-10B Technical Report [115.9]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。 そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。 MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 17:06:04 GMT) - 小規模ながら強力な性能のVLM。Qwen3 VL 235B A22に匹敵と主張。
- プロジェクトサイトはStep3-VL-10B: Compact Yet Frontier Multimodal Intelligence、モデルはstepfun-ai/Step3-VL-10B · Hugging Face
- A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4]
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5。 ベンチマーク評価,対角評価,多言語評価,コンプライアンス評価を統合した統一プロトコルを用いて,言語,視覚言語,画像生成設定の各モデルを評価する。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 15:52:52 GMT) - 「In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We eval- uate each model across language, vision–language, and image generation settings us- ing a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation.」とMLLMや画像生成モデルに関する安全性評価。VLMとしてはGPT-5.2のスコアはさすがといったところ。
- プロジェクトサイトはSafety Report: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Nano Banana Pro, Seedream 4.5
Epistemology gives a Future to Complementarity in Human-AI Interactions
- Epistemology gives a Future to Complementarity in Human-AI Interactions [42.4]
相補性とは、AIシステムによって支えられた人間は、意思決定プロセスにおいて単独でより優れる、という主張である。 我々は,人間とAIの相互作用が信頼できる過程であることを示す証拠として,相補性の歴史的事例が機能すると主張している。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 21:04:28 GMT) - 最近よく目にする「Human-AI complementarity is the claim that a human supported by an AI system can outperform either alone in a decision-making process. Since its introduction in the human–AI interaction literature, it has gained traction by generalizing the reliance paradigm and by offering a more practical alternative to the contested construct of ‘trust in AI.’ 」についての論文。
- 実務者目線だと「III. More than relative predictive accuracy is at stake in human-AI interactions.」、「IV. Complementarity ignores the magnitude-cost profile of epistemic gain.」が興味深い。
Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models
- Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models [96.0]
物理的システムの正確なデジタル表現としてのデジタルツインは、受動的シミュレーションツールからインテリジェントで自律的なエンティティへと進化してきた。 本稿では,デジタルツインライフサイクルにおけるAI統合を特徴付ける4段階統合フレームワークを提案する。
論文 参考訳(メタデータ) (Sun, 04 Jan 2026 01:17:09 GMT) - デジタルツインに関する包括的なサーベイ
- 応用領域だけでも下記が挙げられており、読みごたえがある。
- Healthcare System
- Biological System
- Aerospace
- Smart City
- Mobility and Transportation
- Smart Manufacturing
- Robotics
- Natural System and Environment
- Agriculture
- Commerce
- Education and Training
- Quantum Computing for Digital Twin
Current Agents Fail to Leverage World Model as Tool for Foresight
- Current Agents Fail to Leverage World Model as Tool for Foresight [86.9]
エージェントは、行動する前に結果を予測するためにそれらを使用できます。 本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (Wed, 07 Jan 2026 13:15:23 GMT) - 「Our investigation reveals that giving agents access to a world model reshapes their behavior in unexpected ways. Rather than serving as a straightforward enhancement, simulation introduces new cognitive pressures: agents must manage hypothetical branches and maintain coherent reasoning across mixed real and imagined experience. The difficulties we observe, including hesitation, over-analysis, and misaligned interpretation, suggest that effective foresight requires more fine-grained governance.」と、world model的なツールがあったとしても現在のAIはそれを使いこなせていないという指摘。
- 現段階ではworld model的能力が考慮された設計になっていない、ということなんだろうか。