MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

  • MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games [79.7]
    マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。 回転する小さな偏差は、多エージェントカップリングによって増幅される。 自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
    論文  参考訳(メタデータ)   (Mon, 09 Mar 2026 23:36:32 GMT)
  • 「We therefore propose MEMO (Memory-augmented MOdel context optimization), a self- play framework that optimizes inference-time context without updating model weights. 」「The central finding is that exploration alone yields only modest gains; persistent memory is what transforms context optimization from a memoryless search into a cumulative learning process.」とゲームにおける記憶の有効性を主張。
  • プロジェクトサイトはMEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond

  • SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.4]
    安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
    論文  参考訳(メタデータ)   (Mon, 02 Mar 2026 08:16:04 GMT)
  • 「we propose SafeSci, a holistic framework designed to evaluate and enhance the safety of LLMs in scientific domains. SafeSci consists of two datasets: SafeSciBench, a multi-disciplinary safety evaluation benchmark, and SafeSciTrain, a large-scale instruction tuning dataset for safety enhancement.」とのこと。
    • 余談だがフロンティアモデルはほぼ確実にトレーニングでPubChemや ChEMBLを使っているので・・・という説明にベンチマーク構築の難しさを感じる。
  • リポジトリはGitHub – yangyangyang127/SafeSci · GitHub