When AI Navigates the Fog of War

  • When AI Navigates the Fog of War [23.9]
    我々は、現在のフロンティアモデルのトレーニング遮断後に展開された2026年の中東紛争の初期段階について研究する。 我々は,11の臨界時間ノード,42のノード固有の検証可能な質問,および5つの一般探索質問を構築した。 この研究は、拡大する地政学的危機において、モデル推論のアーカイブスナップショットとして機能する。
    論文  参考訳(メタデータ)   (Tue, 17 Mar 2026 15:13:10 GMT)
  • 「Our analysis suggests three main takeaways. First, model responses often show strong strategic reasoning, going beyond surface rhetoric to attend to structural incentives, particularly in settings involving military posture, deterrence, and material constraints. Second, this capability is uneven across domains: models are generally more reliable in economically and logistically structured settings than in politically ambiguous multi-actor environments. Third, their narratives evolve over time, shifting from early expectations of rapid containment toward more systemic accounts of escalation, exhaustion, and fragile de-escalation.」との主張。
  • 進行中の事象であり振り返るのは必須なのだろうが、進行中の状況であるがゆえに残しておく報告でもあると思う。

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

  • EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery [18.3]
    EvoScientistは進化するマルチエージェントAI科学者フレームワークである。 永続記憶と自己進化を通じて研究戦略を継続的に改善する。 科学的なアイデア生成において、7つのオープンソースおよび商用の最先端システムを上回っている。
    論文  参考訳(メタデータ)   (Mon, 09 Mar 2026 09:07:19 GMT)
  • Huawei によるAI科学者の論文。「 a Researcher Agent (RA) that generates scientific ideas and research proposals, an Engineer Agent (EA) that executes experiments and produces code and analysis, and an Evolution Manager Agent (EMA) that distills interaction histories into persistent memories to guide future decision-making.」とマルチエージェント構成。

Beyond Explainable AI (XAI): An Overdue Paradigm Shift and Post-XAI Research Directions 

  • Beyond Explainable AI (XAI): An Overdue Paradigm Shift and Post-XAI Research Directions [95.6]
    本研究では、ディープニューラルネットワーク(DNN)と大規模言語モデル(LLM)に焦点をあてる、説明可能な人工知能(XAI)アプローチに焦点を当てる。 より深い根本原因に起因する致命的な症状(2つのパラドックス、2つの概念的混乱、5つの誤った仮定)について論じる。 XAIの限界を超えて、信頼性と認定されたAI開発に向けた4つのパラダイムシフトを提案する。
    論文  参考訳(メタデータ)   (Fri, 27 Feb 2026 16:58:27 GMT)
  • 「After nearly a decade, the legacy of the XAI program is increasingly questioned, with critics arguing that challenges have outweighed achievements. It is described as being “in trouble” [6], and some scholars suggest it should be “stopped” for high-stakes decisions [21] or has no role in the future of human-centric AI approaches [22]; others view it as myth [23] or consider it already “dead” [24].」と厳しい指摘を認識しつつのXAIの現状と今後に関するサーベイ。

Physical Simulator In-the-Loop Video Generation

  • Physical Simulator In-the-Loop Video Generation [96.9]
    Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。 PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
    論文  参考訳(メタデータ)   (Fri, 06 Mar 2026 15:48:25 GMT)
  • 「We propose PSIVG, a novel physical simulator in-the-loop video generation pipeline.」とのこと。発想はありそうだが、実装上はシミュレーターへのデータ設定や出力の利用にかなりの工夫を行っている。
  • プロジェクトサイトはPSIVG

Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework

  • Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework [18.5]
    長期記憶は、自律型大規模言語モデル(LLM)エージェントの基礎コンポーネントとして登場した。 メモリガバナンス、セマンティックドリフト、プライバシ脆弱性に関する重要な懸念が浮上しました。 本稿では,概念的ガバナンスアーキテクチャであるSSGM(Stable and Safety-Governed Memory)フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 12 Mar 2026 10:16:52 GMT)
  • 「We argue that for LLM agents to be reliable in high-stakes environments, memory evolution must be decoupled from mem- ory governance.」として、 Stability- and Safety-Governed Memory (SSGM) frameworkを提案。
  • アーキテクチャとしても興味深い。

Verifiable Reasoning for LLM-based Generative Recommendation

  • Verifiable Reasoning for LLM-based Generative Recommendation [106.8]
    大規模言語モデル(LLM)における推論は、最近、生成的レコメンデーションの強化に強い可能性を示している。 本稿では,信頼性の高いフィードバックを提供するために,検証と推論をインターリーブする新しいTextbftextitreason-verify-recommendパラダイムを提案する。 4つの実世界のデータセットの実験は、VRecが効率を損なうことなく、推奨の有効性とスケーラビリティを大幅に向上することを示した。
    論文  参考訳(メタデータ)   (Sun, 08 Mar 2026 16:55:45 GMT)
  • 「we propose a novel reason-verify-recommend paradigm, which interleaves reasoning with verification to provide reliable feedback, guiding the reasoning process toward more faithful user preference understanding.」とレコメンデーションタスクでの推論で効果的なフレームワークの提案。Qwen2.5-1.5Bをファインチューニングして実装、効果を確認とのこと。
  • リポジトリはLinxyhaha/Verifiable-Rec · GitHub

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

  • Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.7]
    より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。 FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。 FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な “ルーラー” の提供を目指す。
    論文  参考訳(メタデータ)   (Sat, 28 Feb 2026 05:41:57 GMT)
  • Few shotでの転移性を評価するベンチマークの提案。
  • リポジトリはGitHub – Frankluox/FewTrans · GitHub

Hybrid Self-evolving Structured Memory for GUI Agents 

  • Hybrid Self-evolving Structured Memory for GUI Agents [30.9]
    ハイブリッド自己進化型構造化メモリ(HyMEM)を提案する。 HyMEMはグラフベースのメモリで、個別の高レベルなシンボルノードと連続的な埋め込みを結合する。 オープンソースGUIエージェントを継続的に改善し、7B/8Bバックボーンが強力なクローズドソースモデルにマッチしたり、超えたりすることができる。
    論文  参考訳(メタデータ)   (Wed, 11 Mar 2026 00:17:44 GMT)
  • GUI Agentを強化するためのグラフ構造をつかったメモリの提案。
  • プロジェクトサイトはHyMEM Project Page – a Hugging Face Space by Nick0907

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

  • MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games [79.7]
    マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。 回転する小さな偏差は、多エージェントカップリングによって増幅される。 自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
    論文  参考訳(メタデータ)   (Mon, 09 Mar 2026 23:36:32 GMT)
  • 「We therefore propose MEMO (Memory-augmented MOdel context optimization), a self- play framework that optimizes inference-time context without updating model weights. 」「The central finding is that exploration alone yields only modest gains; persistent memory is what transforms context optimization from a memoryless search into a cumulative learning process.」とゲームにおける記憶の有効性を主張。
  • プロジェクトサイトはMEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond

  • SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.4]
    安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
    論文  参考訳(メタデータ)   (Mon, 02 Mar 2026 08:16:04 GMT)
  • 「we propose SafeSci, a holistic framework designed to evaluate and enhance the safety of LLMs in scientific domains. SafeSci consists of two datasets: SafeSciBench, a multi-disciplinary safety evaluation benchmark, and SafeSciTrain, a large-scale instruction tuning dataset for safety enhancement.」とのこと。
    • 余談だがフロンティアモデルはほぼ確実にトレーニングでPubChemや ChEMBLを使っているので・・・という説明にベンチマーク構築の難しさを感じる。
  • リポジトリはGitHub – yangyangyang127/SafeSci · GitHub