2023年6月20日 – arXiv最新論文の紹介

Augmenting Language Models with Long-Term Memory

Augmenting Language Models with Long-Term Memory [142.0]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文参考訳（メタデータ） (Mon, 12 Jun 2023 15:13:39 GMT)
LLMを凍結した状態でresidual side-network (SideNet)を使ってメモリ機構を実現する方式の提案。既存手法の性能を上回り、in context learningでも本手法を通したshot数の向上が性能向上に効果があったとのこと
リポジトリはGitHub – Victorwz/LongMem

A Survey of Learning on Small Data

A Survey of Learning on Small Data: Generalization, Optimization, and Challenge [101.3]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文参考訳（メタデータ） (Tue, 6 Jun 2023 15:44:14 GMT)
小規模データでの学習方法に関すルサーベイ。 2ページの図1にある整理軸が参考になる。