コンテンツへスキップ
- Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework [18.5]
長期記憶は、自律型大規模言語モデル(LLM)エージェントの基礎コンポーネントとして登場した。 メモリガバナンス、セマンティックドリフト、プライバシ脆弱性に関する重要な懸念が浮上しました。 本稿では,概念的ガバナンスアーキテクチャであるSSGM(Stable and Safety-Governed Memory)フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 12 Mar 2026 10:16:52 GMT)
- 「We argue that for LLM agents to be reliable in high-stakes environments, memory evolution must be decoupled from mem- ory governance.」として、 Stability- and Safety-Governed Memory (SSGM) frameworkを提案。
- アーキテクチャとしても興味深い。
- Verifiable Reasoning for LLM-based Generative Recommendation [106.8]
大規模言語モデル(LLM)における推論は、最近、生成的レコメンデーションの強化に強い可能性を示している。 本稿では,信頼性の高いフィードバックを提供するために,検証と推論をインターリーブする新しいTextbftextitreason-verify-recommendパラダイムを提案する。 4つの実世界のデータセットの実験は、VRecが効率を損なうことなく、推奨の有効性とスケーラビリティを大幅に向上することを示した。
論文 参考訳(メタデータ) (Sun, 08 Mar 2026 16:55:45 GMT)
- 「we propose a novel reason-verify-recommend paradigm, which interleaves reasoning with verification to provide reliable feedback, guiding the reasoning process toward more faithful user preference understanding.」とレコメンデーションタスクでの推論で効果的なフレームワークの提案。Qwen2.5-1.5Bをファインチューニングして実装、効果を確認とのこと。
- リポジトリはLinxyhaha/Verifiable-Rec · GitHub
- Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.7]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。 FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。 FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な “ルーラー” の提供を目指す。
論文 参考訳(メタデータ) (Sat, 28 Feb 2026 05:41:57 GMT)
- Few shotでの転移性を評価するベンチマークの提案。
- リポジトリはGitHub – Frankluox/FewTrans · GitHub
- Hybrid Self-evolving Structured Memory for GUI Agents [30.9]
ハイブリッド自己進化型構造化メモリ(HyMEM)を提案する。 HyMEMはグラフベースのメモリで、個別の高レベルなシンボルノードと連続的な埋め込みを結合する。 オープンソースGUIエージェントを継続的に改善し、7B/8Bバックボーンが強力なクローズドソースモデルにマッチしたり、超えたりすることができる。
論文 参考訳(メタデータ) (Wed, 11 Mar 2026 00:17:44 GMT)
- GUI Agentを強化するためのグラフ構造をつかったメモリの提案。
- プロジェクトサイトはHyMEM Project Page – a Hugging Face Space by Nick0907
- MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games [79.7]
マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。 回転する小さな偏差は、多エージェントカップリングによって増幅される。 自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
論文 参考訳(メタデータ) (Mon, 09 Mar 2026 23:36:32 GMT)
- 「We therefore propose MEMO (Memory-augmented MOdel context optimization), a self- play framework that optimizes inference-time context without updating model weights. 」「The central finding is that exploration alone yields only modest gains; persistent memory is what transforms context optimization from a memoryless search into a cumulative learning process.」とゲームにおける記憶の有効性を主張。
- プロジェクトサイトはMEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games
- SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.4]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文 参考訳(メタデータ) (Mon, 02 Mar 2026 08:16:04 GMT)
- 「we propose SafeSci, a holistic framework designed to evaluate and enhance the safety of LLMs in scientific domains. SafeSci consists of two datasets: SafeSciBench, a multi-disciplinary safety evaluation benchmark, and SafeSciTrain, a large-scale instruction tuning dataset for safety enhancement.」とのこと。
- 余談だがフロンティアモデルはほぼ確実にトレーニングでPubChemや ChEMBLを使っているので・・・という説明にベンチマーク構築の難しさを感じる。
- リポジトリはGitHub – yangyangyang127/SafeSci · GitHub
- AI Knows What’s Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions [51.6]
大規模言語モデルは、その出力がチェックできる場合に信頼性を持って機能しますが医師が不完全なデータに基づいて治療を選択する場合や、投資家が不確実性の下で資本を投入する場合には、パフォーマンスが異なります。 ヘリコイド力学(Helicoid dynamics)は、その2番目のドメインの特定の障害状態に与えられる名前である。 システムは巧みに働き、エラーに陥り、何がうまくいかなかったかを正確に名付け、さらに高度な技術で同じパターンを再現する。 この先進的な事例シリーズは、7つの主要なシステムにまたがる体制を文書化する。
論文 参考訳(メタデータ) (Thu, 12 Mar 2026 05:25:49 GMT)
- 「LLMs reached a point where they could recognize their own cognitive degradation — and yet remained incapable of reliably changing the behavior that fueled their failure. Each session followed the same sequence: competent engagement, a failure mode, accurate meta-recognition of that failure, a proposed correction, and then recurrence of the same failure at higher abstraction, often through polished reflection or procedural deferral. The models recognized they were looping. They continued looping nonetheless.」とたまによく見る現象の分析。
- Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures [47.3]
本研究では,トランスフォーマーとステートスペースモデルを組み合わせたハイブリッドアーキテクチャが,2つの合成インコンテキスト検索タスクにおいて両世界の長所を達成できるかどうかを考察する。 ハイブリッドモデルはSSMを上回り、データ効率と情報深度コンテキスト検索のための外挿においてTransformerを上回ります。
論文 参考訳(メタデータ) (Tue, 03 Mar 2026 11:28:33 GMT)
- 公開モデルでも採用例の多いtransformer+state space modelの有効性を検証した論文、「Hybrid models outperform both pure Transformers and SSMs on n-gram retrieval in terms of data efficiency, length generalization, and robustness to duplicate queries.」とのこと。