Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework

  • Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework [18.5]
    長期記憶は、自律型大規模言語モデル(LLM)エージェントの基礎コンポーネントとして登場した。 メモリガバナンス、セマンティックドリフト、プライバシ脆弱性に関する重要な懸念が浮上しました。 本稿では,概念的ガバナンスアーキテクチャであるSSGM(Stable and Safety-Governed Memory)フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 12 Mar 2026 10:16:52 GMT)
  • 「We argue that for LLM agents to be reliable in high-stakes environments, memory evolution must be decoupled from mem- ory governance.」として、 Stability- and Safety-Governed Memory (SSGM) frameworkを提案。
  • アーキテクチャとしても興味深い。

Verifiable Reasoning for LLM-based Generative Recommendation

  • Verifiable Reasoning for LLM-based Generative Recommendation [106.8]
    大規模言語モデル(LLM)における推論は、最近、生成的レコメンデーションの強化に強い可能性を示している。 本稿では,信頼性の高いフィードバックを提供するために,検証と推論をインターリーブする新しいTextbftextitreason-verify-recommendパラダイムを提案する。 4つの実世界のデータセットの実験は、VRecが効率を損なうことなく、推奨の有効性とスケーラビリティを大幅に向上することを示した。
    論文  参考訳(メタデータ)   (Sun, 08 Mar 2026 16:55:45 GMT)
  • 「we propose a novel reason-verify-recommend paradigm, which interleaves reasoning with verification to provide reliable feedback, guiding the reasoning process toward more faithful user preference understanding.」とレコメンデーションタスクでの推論で効果的なフレームワークの提案。Qwen2.5-1.5Bをファインチューニングして実装、効果を確認とのこと。
  • リポジトリはLinxyhaha/Verifiable-Rec · GitHub

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

  • Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.7]
    より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。 FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。 FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な “ルーラー” の提供を目指す。
    論文  参考訳(メタデータ)   (Sat, 28 Feb 2026 05:41:57 GMT)
  • Few shotでの転移性を評価するベンチマークの提案。
  • リポジトリはGitHub – Frankluox/FewTrans · GitHub

Hybrid Self-evolving Structured Memory for GUI Agents 

  • Hybrid Self-evolving Structured Memory for GUI Agents [30.9]
    ハイブリッド自己進化型構造化メモリ(HyMEM)を提案する。 HyMEMはグラフベースのメモリで、個別の高レベルなシンボルノードと連続的な埋め込みを結合する。 オープンソースGUIエージェントを継続的に改善し、7B/8Bバックボーンが強力なクローズドソースモデルにマッチしたり、超えたりすることができる。
    論文  参考訳(メタデータ)   (Wed, 11 Mar 2026 00:17:44 GMT)
  • GUI Agentを強化するためのグラフ構造をつかったメモリの提案。
  • プロジェクトサイトはHyMEM Project Page – a Hugging Face Space by Nick0907

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

  • MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games [79.7]
    マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。 回転する小さな偏差は、多エージェントカップリングによって増幅される。 自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
    論文  参考訳(メタデータ)   (Mon, 09 Mar 2026 23:36:32 GMT)
  • 「We therefore propose MEMO (Memory-augmented MOdel context optimization), a self- play framework that optimizes inference-time context without updating model weights. 」「The central finding is that exploration alone yields only modest gains; persistent memory is what transforms context optimization from a memoryless search into a cumulative learning process.」とゲームにおける記憶の有効性を主張。
  • プロジェクトサイトはMEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond

  • SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.4]
    安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
    論文  参考訳(メタデータ)   (Mon, 02 Mar 2026 08:16:04 GMT)
  • 「we propose SafeSci, a holistic framework designed to evaluate and enhance the safety of LLMs in scientific domains. SafeSci consists of two datasets: SafeSciBench, a multi-disciplinary safety evaluation benchmark, and SafeSciTrain, a large-scale instruction tuning dataset for safety enhancement.」とのこと。
    • 余談だがフロンティアモデルはほぼ確実にトレーニングでPubChemや ChEMBLを使っているので・・・という説明にベンチマーク構築の難しさを感じる。
  • リポジトリはGitHub – yangyangyang127/SafeSci · GitHub

AI Knows What’s Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions 

  • AI Knows What’s Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions [51.6]
    大規模言語モデルは、その出力がチェックできる場合に信頼性を持って機能しますが医師が不完全なデータに基づいて治療を選択する場合や、投資家が不確実性の下で資本を投入する場合には、パフォーマンスが異なります。 ヘリコイド力学(Helicoid dynamics)は、その2番目のドメインの特定の障害状態に与えられる名前である。 システムは巧みに働き、エラーに陥り、何がうまくいかなかったかを正確に名付け、さらに高度な技術で同じパターンを再現する。 この先進的な事例シリーズは、7つの主要なシステムにまたがる体制を文書化する。
    論文  参考訳(メタデータ)   (Thu, 12 Mar 2026 05:25:49 GMT)
  • 「LLMs reached a point where they could recognize their own cognitive degradation — and yet remained incapable of reliably changing the behavior that fueled their failure. Each session followed the same sequence: competent engagement, a failure mode, accurate meta-recognition of that failure, a proposed correction, and then recurrence of the same failure at higher abstraction, often through polished reflection or procedural deferral. The models recognized they were looping. They continued looping nonetheless.」とたまによく見る現象の分析。

WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing 

  • WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing [103.7]
    WeEditは、スケーラブルなデータ構築パイプラインと2つのベンチマーク、2段階のトレーニング戦略を含む、システマティックなソリューションである。 具体的には、多様な編集操作と15言語をカバーする330Kのトレーニングペアを生成するHTMLベースの新しい自動編集パイプラインを提案する。 アルゴリズム面では、グリフ誘導による微調整を用いて、空間的および内容的事前の明示を注入し、次いで、命令の順守、テキストの明瞭さ、背景の保存と、生成を整合させる多目的強化学習ステージを用いる。
    論文  参考訳(メタデータ)   (Thu, 12 Mar 2026 06:25:09 GMT)
  • テキストによる画像編集
  • プロジェクトサイトはWeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

GLM-OCR Technical Report 

  • GLM-OCR Technical Report [65.4]
    GLM-OCRは実世界の文書理解のために設計された効率的なコンパクトモデルである。 CogViTビジュアルエンコーダとGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。 公開ベンチマークと産業シナリオの大規模な評価は、GLM-OCRが競争力や最先端のパフォーマンスを達成することを示している。
    論文  参考訳(メタデータ)   (Wed, 11 Mar 2026 15:55:47 GMT)
  • 比較的軽量ながら強力なGLM-OCRのテクニカルペーパー
  • リポジトリはGitHub – zai-org/GLM-OCR: GLM-OCR: Accurate × Fast × Comprehensive · GitHub

Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures 

  • Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures [47.3]
    本研究では,トランスフォーマーとステートスペースモデルを組み合わせたハイブリッドアーキテクチャが,2つの合成インコンテキスト検索タスクにおいて両世界の長所を達成できるかどうかを考察する。 ハイブリッドモデルはSSMを上回り、データ効率と情報深度コンテキスト検索のための外挿においてTransformerを上回ります。
    論文  参考訳(メタデータ)   (Tue, 03 Mar 2026 11:28:33 GMT)
  • 公開モデルでも採用例の多いtransformer+state space modelの有効性を検証した論文、「Hybrid models outperform both pure Transformers and SSMs on n-gram retrieval in terms of data efficiency, length generalization, and robustness to duplicate queries.」とのこと。