Beyond Explainable AI (XAI): An Overdue Paradigm Shift and Post-XAI Research Directions 

  • Beyond Explainable AI (XAI): An Overdue Paradigm Shift and Post-XAI Research Directions [95.6]
    本研究では、ディープニューラルネットワーク(DNN)と大規模言語モデル(LLM)に焦点をあてる、説明可能な人工知能(XAI)アプローチに焦点を当てる。 より深い根本原因に起因する致命的な症状(2つのパラドックス、2つの概念的混乱、5つの誤った仮定)について論じる。 XAIの限界を超えて、信頼性と認定されたAI開発に向けた4つのパラダイムシフトを提案する。
    論文  参考訳(メタデータ)   (Fri, 27 Feb 2026 16:58:27 GMT)
  • 「After nearly a decade, the legacy of the XAI program is increasingly questioned, with critics arguing that challenges have outweighed achievements. It is described as being “in trouble” [6], and some scholars suggest it should be “stopped” for high-stakes decisions [21] or has no role in the future of human-centric AI approaches [22]; others view it as myth [23] or consider it already “dead” [24].」と厳しい指摘を認識しつつのXAIの現状と今後に関するサーベイ。

Physical Simulator In-the-Loop Video Generation

  • Physical Simulator In-the-Loop Video Generation [96.9]
    Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。 PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
    論文  参考訳(メタデータ)   (Fri, 06 Mar 2026 15:48:25 GMT)
  • 「We propose PSIVG, a novel physical simulator in-the-loop video generation pipeline.」とのこと。発想はありそうだが、実装上はシミュレーターへのデータ設定や出力の利用にかなりの工夫を行っている。
  • プロジェクトサイトはPSIVG

Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework

  • Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework [18.5]
    長期記憶は、自律型大規模言語モデル(LLM)エージェントの基礎コンポーネントとして登場した。 メモリガバナンス、セマンティックドリフト、プライバシ脆弱性に関する重要な懸念が浮上しました。 本稿では,概念的ガバナンスアーキテクチャであるSSGM(Stable and Safety-Governed Memory)フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 12 Mar 2026 10:16:52 GMT)
  • 「We argue that for LLM agents to be reliable in high-stakes environments, memory evolution must be decoupled from mem- ory governance.」として、 Stability- and Safety-Governed Memory (SSGM) frameworkを提案。
  • アーキテクチャとしても興味深い。

Verifiable Reasoning for LLM-based Generative Recommendation

  • Verifiable Reasoning for LLM-based Generative Recommendation [106.8]
    大規模言語モデル(LLM)における推論は、最近、生成的レコメンデーションの強化に強い可能性を示している。 本稿では,信頼性の高いフィードバックを提供するために,検証と推論をインターリーブする新しいTextbftextitreason-verify-recommendパラダイムを提案する。 4つの実世界のデータセットの実験は、VRecが効率を損なうことなく、推奨の有効性とスケーラビリティを大幅に向上することを示した。
    論文  参考訳(メタデータ)   (Sun, 08 Mar 2026 16:55:45 GMT)
  • 「we propose a novel reason-verify-recommend paradigm, which interleaves reasoning with verification to provide reliable feedback, guiding the reasoning process toward more faithful user preference understanding.」とレコメンデーションタスクでの推論で効果的なフレームワークの提案。Qwen2.5-1.5Bをファインチューニングして実装、効果を確認とのこと。
  • リポジトリはLinxyhaha/Verifiable-Rec · GitHub

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

  • Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.7]
    より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。 FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。 FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な “ルーラー” の提供を目指す。
    論文  参考訳(メタデータ)   (Sat, 28 Feb 2026 05:41:57 GMT)
  • Few shotでの転移性を評価するベンチマークの提案。
  • リポジトリはGitHub – Frankluox/FewTrans · GitHub

Hybrid Self-evolving Structured Memory for GUI Agents 

  • Hybrid Self-evolving Structured Memory for GUI Agents [30.9]
    ハイブリッド自己進化型構造化メモリ(HyMEM)を提案する。 HyMEMはグラフベースのメモリで、個別の高レベルなシンボルノードと連続的な埋め込みを結合する。 オープンソースGUIエージェントを継続的に改善し、7B/8Bバックボーンが強力なクローズドソースモデルにマッチしたり、超えたりすることができる。
    論文  参考訳(メタデータ)   (Wed, 11 Mar 2026 00:17:44 GMT)
  • GUI Agentを強化するためのグラフ構造をつかったメモリの提案。
  • プロジェクトサイトはHyMEM Project Page – a Hugging Face Space by Nick0907

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

  • MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games [79.7]
    マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。 回転する小さな偏差は、多エージェントカップリングによって増幅される。 自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
    論文  参考訳(メタデータ)   (Mon, 09 Mar 2026 23:36:32 GMT)
  • 「We therefore propose MEMO (Memory-augmented MOdel context optimization), a self- play framework that optimizes inference-time context without updating model weights. 」「The central finding is that exploration alone yields only modest gains; persistent memory is what transforms context optimization from a memoryless search into a cumulative learning process.」とゲームにおける記憶の有効性を主張。
  • プロジェクトサイトはMEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond

  • SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.4]
    安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
    論文  参考訳(メタデータ)   (Mon, 02 Mar 2026 08:16:04 GMT)
  • 「we propose SafeSci, a holistic framework designed to evaluate and enhance the safety of LLMs in scientific domains. SafeSci consists of two datasets: SafeSciBench, a multi-disciplinary safety evaluation benchmark, and SafeSciTrain, a large-scale instruction tuning dataset for safety enhancement.」とのこと。
    • 余談だがフロンティアモデルはほぼ確実にトレーニングでPubChemや ChEMBLを使っているので・・・という説明にベンチマーク構築の難しさを感じる。
  • リポジトリはGitHub – yangyangyang127/SafeSci · GitHub

AI Knows What’s Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions 

  • AI Knows What’s Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions [51.6]
    大規模言語モデルは、その出力がチェックできる場合に信頼性を持って機能しますが医師が不完全なデータに基づいて治療を選択する場合や、投資家が不確実性の下で資本を投入する場合には、パフォーマンスが異なります。 ヘリコイド力学(Helicoid dynamics)は、その2番目のドメインの特定の障害状態に与えられる名前である。 システムは巧みに働き、エラーに陥り、何がうまくいかなかったかを正確に名付け、さらに高度な技術で同じパターンを再現する。 この先進的な事例シリーズは、7つの主要なシステムにまたがる体制を文書化する。
    論文  参考訳(メタデータ)   (Thu, 12 Mar 2026 05:25:49 GMT)
  • 「LLMs reached a point where they could recognize their own cognitive degradation — and yet remained incapable of reliably changing the behavior that fueled their failure. Each session followed the same sequence: competent engagement, a failure mode, accurate meta-recognition of that failure, a proposed correction, and then recurrence of the same failure at higher abstraction, often through polished reflection or procedural deferral. The models recognized they were looping. They continued looping nonetheless.」とたまによく見る現象の分析。

WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing 

  • WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing [103.7]
    WeEditは、スケーラブルなデータ構築パイプラインと2つのベンチマーク、2段階のトレーニング戦略を含む、システマティックなソリューションである。 具体的には、多様な編集操作と15言語をカバーする330Kのトレーニングペアを生成するHTMLベースの新しい自動編集パイプラインを提案する。 アルゴリズム面では、グリフ誘導による微調整を用いて、空間的および内容的事前の明示を注入し、次いで、命令の順守、テキストの明瞭さ、背景の保存と、生成を整合させる多目的強化学習ステージを用いる。
    論文  参考訳(メタデータ)   (Thu, 12 Mar 2026 06:25:09 GMT)
  • テキストによる画像編集
  • プロジェクトサイトはWeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing