tokenize – arXiv最新論文の紹介

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [22.8]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。すべてのアプリケーションに対して銀の弾丸が存在することはあり得ない。
論文参考訳（メタデータ） (Mon, 20 Dec 2021 13:04:18 GMT)
- 自然言語処理の基礎となるTokenizeの歴史が書かれたサーベイ（？）結論は銀の弾丸はないので応用領域ごとに考えるべきというものだが、歴史が非常に参考になる。
- 特に日本語では自然言語処理には形態素解析が重要になることが多く、目的に応じて手法（アプローチ）が異なるのは納得感がある。

Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.2]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデルを提案する。文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文参考訳（メタデータ） (Wed, 23 Jun 2021 22:24:14 GMT)
- GBST( Gradient-Based Subword Tokenization module)を提案、Transformerに統合してsub word化を行わず優れた性能を出したという報告。スピードも速い。
- 英語のタスクでは以前紹介したByT5と比べても優れており、マルチリンガルな設定では性能は同等で高速とのこと。後者で性能差が縮まるという結果も興味深い。

タグ: tokenize