コンテンツへスキップ
- Hybrid Self-evolving Structured Memory for GUI Agents [30.9]
ハイブリッド自己進化型構造化メモリ(HyMEM)を提案する。 HyMEMはグラフベースのメモリで、個別の高レベルなシンボルノードと連続的な埋め込みを結合する。 オープンソースGUIエージェントを継続的に改善し、7B/8Bバックボーンが強力なクローズドソースモデルにマッチしたり、超えたりすることができる。
論文 参考訳(メタデータ) (Wed, 11 Mar 2026 00:17:44 GMT)
- GUI Agentを強化するためのグラフ構造をつかったメモリの提案。
- プロジェクトサイトはHyMEM Project Page – a Hugging Face Space by Nick0907
- MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games [79.7]
マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。 回転する小さな偏差は、多エージェントカップリングによって増幅される。 自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
論文 参考訳(メタデータ) (Mon, 09 Mar 2026 23:36:32 GMT)
- 「We therefore propose MEMO (Memory-augmented MOdel context optimization), a self- play framework that optimizes inference-time context without updating model weights. 」「The central finding is that exploration alone yields only modest gains; persistent memory is what transforms context optimization from a memoryless search into a cumulative learning process.」とゲームにおける記憶の有効性を主張。
- プロジェクトサイトはMEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games
- SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.4]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文 参考訳(メタデータ) (Mon, 02 Mar 2026 08:16:04 GMT)
- 「we propose SafeSci, a holistic framework designed to evaluate and enhance the safety of LLMs in scientific domains. SafeSci consists of two datasets: SafeSciBench, a multi-disciplinary safety evaluation benchmark, and SafeSciTrain, a large-scale instruction tuning dataset for safety enhancement.」とのこと。
- 余談だがフロンティアモデルはほぼ確実にトレーニングでPubChemや ChEMBLを使っているので・・・という説明にベンチマーク構築の難しさを感じる。
- リポジトリはGitHub – yangyangyang127/SafeSci · GitHub