SLED(SLidingEncoder and Decoder): 短文用モデルを長文に適用する手法

  • Efficient Long-Text Understanding with Short-Text Models [38.8]
    SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。 入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 11:14:39 GMT)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です