2026年3月17日 – arXiv最新論文の紹介

Hybrid Self-evolving Structured Memory for GUI Agents

Hybrid Self-evolving Structured Memory for GUI Agents [30.9]
ハイブリッド自己進化型構造化メモリ(HyMEM)を提案する。 HyMEMはグラフベースのメモリで、個別の高レベルなシンボルノードと連続的な埋め込みを結合する。オープンソースGUIエージェントを継続的に改善し、7B/8Bバックボーンが強力なクローズドソースモデルにマッチしたり、超えたりすることができる。
論文参考訳（メタデータ） (Wed, 11 Mar 2026 00:17:44 GMT)
GUI Agentを強化するためのグラフ構造をつかったメモリの提案。
プロジェクトサイトはHyMEM Project Page – a Hugging Face Space by Nick0907

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games [79.7]
マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。回転する小さな偏差は、多エージェントカップリングによって増幅される。自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
論文参考訳（メタデータ） (Mon, 09 Mar 2026 23:36:32 GMT)
「We therefore propose MEMO (Memory-augmented MOdel context optimization), a self- play framework that optimizes inference-time context without updating model weights. 」「The central finding is that exploration alone yields only modest gains; persistent memory is what transforms context optimization from a memoryless search into a cumulative learning process.」とゲームにおける記憶の有効性を主張。
プロジェクトサイトはMEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.4]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文参考訳（メタデータ） (Mon, 02 Mar 2026 08:16:04 GMT)
「we propose SafeSci, a holistic framework designed to evaluate and enhance the safety of LLMs in scientific domains. SafeSci consists of two datasets: SafeSciBench, a multi-disciplinary safety evaluation benchmark, and SafeSciTrain, a large-scale instruction tuning dataset for safety enhancement.」とのこと。
- 余談だがフロンティアモデルはほぼ確実にトレーニングでPubChemや ChEMBLを使っているので・・・という説明にベンチマーク構築の難しさを感じる。
リポジトリはGitHub – yangyangyang127/SafeSci · GitHub