Mega: Moving Average Equipped Gated AttentionとBART-LS

Mega: Moving Average Equipped Gated Attention [150.3]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 20:52:17 GMT)
- Transformerを用いたNLPが流行しているが、長文対応は依然として大きな課題。アテンションに移動平均を適用して優れた性能を達成という報告。
- シンプルな構造だが結果は強力とのこと。なんかLSTMっぽい。

Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.6]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 00:41:07 GMT)
- 同日に出ていた長文対応の論文。こちらでは様々な手法を比較したうえで「アテンションをpooling-augmented blockwise attentionに置き換え」「長短スパンを混合したT5 スタイルのdenoising loss」「C4をランダムに連結した長文の事前学習データ」を取り入れている。
- リポジトリはhttps://github.com/facebookresearch/bart_lsとのことだが、現時点では404

コメントを残すコメントをキャンセル