- Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.2]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデルを提案する。 文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。 また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (Wed, 23 Jun 2021 22:24:14 GMT)- GBST( Gradient-Based Subword Tokenization module)を提案、Transformerに統合してsub word化を行わず優れた性能を出したという報告。スピードも速い。
- 英語のタスクでは以前紹介したByT5と比べても優れており、マルチリンガルな設定では性能は同等で高速とのこと。後者で性能差が縮まるという結果も興味深い。