Artificial Hippocampus Networks for Efficient Long-Context Modeling
Artificial Hippocampus Networks for Efficient Long-Context Modeling [17.2] ロングシーケンス・モデリングは、RNNのようなモデルにおける圧縮固定サイズメモリの効率と、注目ベースのトランスフォーマーにおけるメモリの増大の忠実さとのトレードオフに直面している。 認知科学における多段階モデルに着想を得て,人工ニューラルネットワークのメモリフレームワークを導入する。 長文ベンチマークのLV-EvalとInfiniteBenchの実験は、AHN拡張モデルがスライディングウインドウベースラインを一貫して上回ることを示した。 論文参考訳(メタデータ) (Wed, 08 Oct 2025 17:59:55 GMT)
「AHNs address the efficiency limitation of standard transformers by maintaining a sliding window of KV cache as lossless memory while transforming out-of-window information into a fixed-size compressed memory This approach enables AHN-augmented models to achieve constant memory and computational complexity per token over long sequences. Experiments」と長文に強い構造の提案。