2022年9月9日 – arXiv最新論文の紹介

A Compact Pretraining Approach for Neural Language Models [21.8]
事前学習したNLMは、データのコンパクトなサブセットから、ドメイン内の情報をより効率的に、より高速に学習できることを示す。抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクトな部分集合を構築する。我々の戦略は、バニラ予習に比べて、予習時間を最大5倍削減します。
論文参考訳（メタデータ） (Mon, 29 Aug 2022 00:54:42 GMT)
- 要約結果＆重要なキーワードの組み合わせにより全データ＆ランダムマスクな方針よりも高速に学習（ターゲットドメインへの適合）ができるとの報告
  - ドメインを合わせるために重要な部分のみを使うというのは直感的には良さそうな方針に思えるがBART要約 & KeyBERTで作ってそうなるのかはどうなんだろう。実験結果ではランダムマスクに勝っているのでうまく動いているっぽいが。。。
- リポジトリはshahriargolchin/compact-pretraining (github.com)

日: 2022年9月9日