- EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines [23.1]
EvoFSMは、明示的な有限状態マシンを進化させ、適応性と制御の両方を達成する構造化自己進化フレームワークである。 EvoFSMは、小さな制約された操作によってFSMを洗練し、また、再利用可能な事前および障害パターンとして成功したトラジェクトリを蒸留する自己進化メモリも組み込む。 特に、EvoFSMはDeepSearchベンチマークで58.0%の精度に達する。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 13:19:13 GMT) - 「EvoFSM first models the complex retrieval-reasoning process as an explicit Finite State Machine (FSM) (Wu et al , 2024). By decomposing uncertain, long-horizon tasks into a state graph with clear transition logic, we establish deterministic behavioral boundaries that guarantee foundational stability. Second, to mitigate the uncontrollability of evolution, EvoFSM employs a “Structured Self-Evolution” mechanism. Rather than allowing free-form rewriting, we restrict the system to modifying the FSM topology only via a set of atomic operations guided by a critic mechanism. This targeted adjustment ensures the system flexibly adapts to new tasks without compromising functional integrity.」というアプローチの提案。コード生成を介するよりも効率的なのだろうか・・・?
- リポジトリはhttps://github.com/QuantaAlpha/EvoFSM
カテゴリー: arXiv
What Matters For Safety Alignment?
- What Matters For Safety Alignment? [38.9]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。 本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。 LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (Wed, 07 Jan 2026 12:31:52 GMT) - 「We systematically investigate and compare the influence of six critical intrinsic model characteristics and three external attack techniques. Our large-scale evaluation is conducted using 32 recent, popular LLMs and LRMs across thirteen distinct model families, spanning a parameter scale from 3B to 235B.」と安全性からのLLM/LRMの評価。「The top-three safest families OpenAI GPT-OSS [5], Alibaba Qwen3-Next [27], and Google Gemma-3 [28] are dramatically safer than the top-three most vulnerable Deepseek- R1Distilled [2], Mistral-v0.3 [29], and Seed-OSS [30] families. These disparities can be interpreted as indicators of varying institutional investments in safety research and relative maturity in model training pipelines and infrastructures.」としている。
- 基本的のは公開モデルが対象のよう。
Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception
- Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception [142.5]
我々は,外部の音声知覚をいつ信頼するか,いつ外部の音声知覚を相談するかを知るという,一貫したスキルを学習する音声認識フレームワークを導入する。 音声認識と外部の音声理解タスクの両方でオムニモデルを鼻で微調整することは、しばしば性能を低下させる。 これを解決するために、我々のフレームワークであるSpeech-Handsは、問題を明示的な自己回帰決定として再考する。この学習可能なプリミティブは、モデルが欠陥のある外部候補によって脱線されるのを防ぐのに有効である。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 12:06:50 GMT) - 「In this work, we proposed a learnable voice-agentic framework Speech-Hands for teaching omni models when to trust itself versus when to consult external audio perception. By casting the problem with explicit <internal>, <external>, and <rewrite> action tokens, our experimental results across AudioQA and ASR benchmarks demonstrate strong performance improvements beyond strong baselines, especially when direct finetuning and GER training fail, Speech-Hands can still robustly generate the best prediction.」とのこと。「We aim to instill a form of computational self-reflection (Nelson, 1990) into an omni-modal agent, designing a collaborative framework that explicitly reasons about when to trust its own perception, when to defer to an expert, and even when to utilize tools」というモチベーション。
Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale
- Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale [26.8]
AIエージェントフレームワークの台頭はエージェントスキル、命令を含むモジュールパッケージ、エージェント機能を動的に拡張する実行可能なコードを導入した。 このアーキテクチャは強力なカスタマイズを可能にするが、スキルは暗黙の信頼と最小限の拒否によって実行され、重要なが不適合なアタックサーフェスを生み出す。 2つの主要な市場から42,447のスキルを収集し、この新興エコシステムの最初の大規模な経験的セキュリティ分析を行います。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 12:31:52 GMT) - 「We conduct the first large-scale empirical security analysis of this emerging ecosystem, collecting 42,447 skills from two major mar- ketplaces and systematically analyzing 31,132 using SkillScan, a multi-stage detection framework integrating static analysis with LLM-based semantic classification. Our findings reveal pervasive security risks: 26.1% of skills contain at least one vulnerability, spanning 14 distinct patterns across four categories—prompt injection, data exfiltration, privilege escalation, and supply chain risks. Data exfiltration (13.3%) and privilege escalation (11.8%) are most prevalent, while 5.2% of skills exhibit high-severity patterns strongly suggesting malicious intent.」となかなか衝撃的な報告。。
Agent-as-a-Judge
- Agent-as-a-Judge [20.9]
LLM-as-a-Judgeは、スケーラブルな評価に大規模言語モデルを活用することで、AI評価に革命をもたらした。 評価が複雑化し、専門化され、多段階化されるにつれて、LLM-as-a-Judgeの信頼性は、固有のバイアス、浅いシングルパス推論、現実世界の観測に対する評価の欠如によって制約されている。 これはエージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)への移行を触媒し、エージェント・ジャッジは計画、ツール強化された検証、マルチエージェント・コラボレーション、永続メモリを採用し、より堅牢で検証可能な、ニュアンスな評価を可能にする。
論文 参考訳(メタデータ) (Thu, 08 Jan 2026 16:58:10 GMT) - 「We identify and characterize the shift from LLM- as-a-Judge to Agent-as-a-Judge and summarize the agentic judges’ development trend into three progressive stages」と、最近のLLM as a judgeの進化がよく分かるサーベイ。
- リポジトリはGitHub – ModalityDance/Awesome-Agent-as-a-Judge: “A Survey on Agent-as-a-Judge”
Structured Knowledge Representation through Contextual Pages for Retrieval-Augmented Generation
- Structured Knowledge Representation through Contextual Pages for Retrieval-Augmented Generation [53.8]
PAGERは、RAGのためのページ駆動の自律的知識表現フレームワークである。 関連文書を反復的に検索して洗練し、各スロットをポップアップさせ、最終的にコヒーレントなページを構成する。 実験の結果、PAGERはすべてのRAGベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 11:44:31 GMT)]a - 「PAGER first prompts the LLM to draw on its parametric knowledge to con- struct a structured cognitive outline for the target question. This outline consists of multiple slots, each representing a distinct aspect of the potentially relevant knowledge needed to answer the question. Then PAGER employs an iterative knowledge completion mechanism to iteratively retrieve supporting documents for each slot, refine them into concise knowledge evidence, and fill the corresponding slot in the page. This iterative process continues until all slots are filled with the corresponding knowledge evidence. Finally, PAGER uses this structured page as contextual knowledge to guide the LLM to answer the given question」というフレームワークの提案。Deep Researchのような動き。
- リポジトリはGitHub – OpenBMB/PAGER
Dr. Zero: Self-Evolving Search Agents without Training Data
- Dr. Zero: Self-Evolving Search Agents without Training Data [34.9]
我々は,検索エージェントがトレーニングデータなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介した。 特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから問題解決者を訓練する。 トレーニング効率を向上させるため、ホップ群相対ポリシー最適化(HRPO)も導入する。
論文 参考訳(メタデータ) (Sun, 11 Jan 2026 20:27:55 GMT) - 「We introduced Dr. Zero, a data-free self-evolution framework that enhances the reasoning and search capabilities of language agents. By utilizing an iterative proposer-solver training paradigm, Dr. Zero autonomously generates diverse and increasingly challenging open-domain questions without relying on training data. In addition, the proposed HRPO effectively addresses the computational bottlenecks of multi-turn tool use, enabling efficient training by clustering structurally similar queries to estimate advantages.」とproposerとsolverを分けるアプローチ。
- リポジトリはGitHub – facebookresearch/drzero: Dr. Zero Self-Evolving Search Agents without Training Data
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
- Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning [97.3]
我々は,動詞化可能な潜在推論により,コンパクトかつ高性能な計画を実現する効率的な推論フレームワークであるFast-ThinkActを提案する。 様々な具体的操作と推論ベンチマークの実験により、Fast-ThinkActは最大89.3%の推論遅延で強いパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 18:59:59 GMT) - 「How to preserve reasoning capability while enabling compact representations that properly capture essential spatial-temporal dynamics remains a crucial challenge for reasoning VLA models. In this paper, we propose Fast-ThinkAct, an efficient embodied reasoning framework for Vision-Language-Action tasks that achieves compact yet expressive planning through verbalizable latent reasoning.」と推論過程をコンパクトにするフレームワークの提案
- プロジェクトサイトはFast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection
- All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection [67.9]
RFC Benchは、現実的なニュースの下で財務的な誤情報に関する大規模な言語モデルを評価するためのベンチマークである。 このベンチマークでは、2つの補完的なタスクが定義されている。
論文 参考訳(メタデータ) (Wed, 07 Jan 2026 18:18:28 GMT) - 金融の誤情報検知を目指したベンチマーク。「The benchmark defines two complementary tasks: reference-free misinformation detection and comparison-based diagnosis using paired original–perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative con- text is available, while reference-free settings expose significant weaknesses, including un- stable predictions and elevated invalid outputs.
These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC-BENCH provides a structured testbed for studying reference-free reasoning and advancing more reliable financial misinformation detection in real-world settings.」 - リポジトリはGitHub – lzw108/FMD: This is a continuous project on Financial Misinformation Detection (FMD).
Ministral 3, Molmo2, STEP3-VL
OpenAIの広告モデル(ChatGPT Go が登場、世界中で利用可能に | OpenAI)、LLMインタフェースのオープンな仕様(Open Responses、XユーザーのOpenAI Developersさん: 「Today we’re announcing Open Responses: an open-source spec for building multi-provider, interoperable LLM interfaces built on top of the original OpenAI Responses API. ✅ Multi-provider by default ✅ Useful for real-world workflows ✅ Extensible without fragmentation Build https://t.co/SJiBFx1BOF」 / X)、AnthropicのCowork(Introducing Cowork | Claude)、Appleの基盤モデルにGeminiが採用?などビジネス的に興味深いニュースが多かった。
オープンなモデルだとMinistral3やMolmo2、STEP3-VL-10BとMLLM関連の論文発表があった。いずれもサイズと性能のバランスが良く、期待が持てる。
広範なモデルを検証しているA Safety Reportにも要注目。
- Ministral 3 [159.0]
Ministral 3は、計算およびメモリ制約のあるアプリケーションのためのパラメータ効率の高い高密度言語モデルのファミリーである。 汎用目的のための事前訓練されたベースモデル、微調整された命令モデル、複雑な問題解決のための推論モデルである。 各モデルはイメージ理解機能を備えており、すべてApache 2.0ライセンスで提供されている。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 14:06:03 GMT) - Mistralからの発表。「A key component of Ministral 3 is our Cascade Distillation training strategy, an iterative pruning and distillation method, which progressively transfers pretrained knowledge from a large parent model down to a family of compact children models. Our recipe allows us to achieve performance that is competitive with models which had a much larger training budget.」とのこと
- プロジェクトサイトはIntroducing Mistral 3 | Mistral AI、モデルはMinistral 3 – a mistralai Collection
- Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding [73.5]
Molmo2はビデオ言語モデル(VLM)の新たなファミリーであり、オープンソースモデルの中でも最先端の製品である。 単一画像、マルチイメージ、ビデオタスクにおけるポイント駆動グラウンドリングにおいて、例外的な新機能を示す。 私たちの最高の8Bモデルは、ショートビデオ、カウント、キャプションでオープンウェイトとデータモデルのクラスで他よりも優れており、ロングビデオでは競争力があります。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 17:27:44 GMT) - Ai2の最新VLM、ver1から大きく性能を上げている。
- リポジトリはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model、モデルはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model
- STEP3-VL-10B Technical Report [115.9]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。 そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。 MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 17:06:04 GMT) - 小規模ながら強力な性能のVLM。Qwen3 VL 235B A22に匹敵と主張。
- プロジェクトサイトはStep3-VL-10B: Compact Yet Frontier Multimodal Intelligence、モデルはstepfun-ai/Step3-VL-10B · Hugging Face
- A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4]
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5。 ベンチマーク評価,対角評価,多言語評価,コンプライアンス評価を統合した統一プロトコルを用いて,言語,視覚言語,画像生成設定の各モデルを評価する。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 15:52:52 GMT) - 「In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We eval- uate each model across language, vision–language, and image generation settings us- ing a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation.」とMLLMや画像生成モデルに関する安全性評価。VLMとしてはGPT-5.2のスコアはさすがといったところ。
- プロジェクトサイトはSafety Report: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Nano Banana Pro, Seedream 4.5