コンテンツへスキップ
- Augmenting Language Models with Long-Term Memory [142.0]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。 本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (Mon, 12 Jun 2023 15:13:39 GMT)
- LLMを凍結した状態でresidual side-network (SideNet)を使ってメモリ機構を実現する方式の提案。既存手法の性能を上回り、in context learningでも本手法を通したshot数の向上が性能向上に効果があったとのこと
- リポジトリはGitHub – Victorwz/LongMem
- A Survey of Learning on Small Data: Generalization, Optimization, and Challenge [101.3]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。 この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。 効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (Tue, 6 Jun 2023 15:44:14 GMT)
- 小規模データでの学習方法に関すルサーベイ。 2ページの図1にある整理軸が参考になる。