Charformer: サブワード化をモデル中に取り入れたTransformer

  • Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.2]
    モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデルを提案する。 文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。 また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
    論文  参考訳(メタデータ)   (Wed, 23 Jun 2021 22:24:14 GMT)
    • GBST( Gradient-Based Subword Tokenization module)を提案、Transformerに統合してsub word化を行わず優れた性能を出したという報告。スピードも速い。
    • 英語のタスクでは以前紹介したByT5と比べても優れており、マルチリンガルな設定では性能は同等で高速とのこと。後者で性能差が縮まるという結果も興味深い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です