It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization 

  • It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization [26.4]
    我々は、ニューラルネットワークを連想記憶モジュールとして再認識し、注意バイアスと呼ばれる内部的目的を用いてキーと値のマッピングを学習する。 高速並列化可能なトレーニングプロセスを維持しつつ、既存の線形RNNのパワーを超える3つの新しいシーケンスモデル(Moneta、Yaad、Memora)を提示する。 例えば、Mirasの特定のインスタンスは、言語モデリング、コモンセンス推論、リコール集約タスクのような特別なタスクで例外的なパフォーマンスを達成し、トランスフォーマーや他の現代的な線形リカレントモデルよりも優れています。
    論文  参考訳(メタデータ)   (Thu, 17 Apr 2025 17:59:33 GMT)
  • Googleによる新たなアーキテクチャの探索、Mirasフレームワークの提案、Building upon our formulation of memory and forget gate, we present Miras1, a fundamental framework to design novel sequence modeling architectures by four choice of: (1) Attentional bias (i.e., memory objective), (2) Retention gate, (3) Memory architecture, and (4) Memory learning algorithm (i.e., optimizer).
  • 有望なアーキテクチャとしてMoneta, Yaad, Memoraを選定し性能を確認。1.3Bまでと規模が小さめであるが非常に有望な結果に見える。

RWKV-TS

  • RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks [42.3]
    伝統的なリカレントニューラルネットワーク(RNN)アーキテクチャは、伝統的に時系列タスクにおいて顕著な地位を占めてきた。 近年の時系列予測の進歩は、RNNからTransformersやCNNといったタスクに移行している。 我々は,RWKV-TSという,時系列タスクのための効率的なRNNモデルの設計を行った。
    論文  参考訳(メタデータ)   (Wed, 17 Jan 2024 09:56:10 GMT)
  • 時系列予測へのRNN系モデルの改善、高速高性能とのこと
  • リポジトリはhoward-hou/RWKV-TS: RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks (github.com)

RWKV: Reinventing RNNs for the Transformer Era