バイト列（トークン化なし）でのT5

ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.5]
最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
論文参考訳（メタデータ） (Fri, 28 May 2021 07:03:22 GMT)
- MeCabを用いた形態素解析（分かち書き）やsentence pieceを用いたtokenizeなどをせずに事前学習を行うという論文。Fugu-MT 論文翻訳(概要): CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation が思い浮かんだがそれよりも進んでいるよう。

コメントを残す

コメントを残す コメントをキャンセル