- Efficient Long-Text Understanding with Short-Text Models [38.8]
SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。 入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
論文 参考訳(メタデータ) (Mon, 1 Aug 2022 11:14:39 GMT)- 短いテキストを処理するモデルをうまく利用して長文を処理するフレームワークの提案。
- 非常に強力な手法そうであるがこの方針でdecodeがうまくいく理由が腑に落ちない・・・
- リポジトリはGitHub – Mivg/SLED: The official repository for Efficient Long-Text Understanding Using Short-Text Models (Ivgi et al., 2022) paper
- 短いテキストを処理するモデルをうまく利用して長文を処理するフレームワークの提案。