- ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.5]
最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。 標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。 また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
論文 参考訳(メタデータ) (Fri, 28 May 2021 07:03:22 GMT)- MeCabを用いた形態素解析(分かち書き)やsentence pieceを用いたtokenizeなどをせずに事前学習を行うという論文。Fugu-MT 論文翻訳(概要): CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation が思い浮かんだがそれよりも進んでいるよう。