- Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [22.8]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。 すべてのアプリケーションに対して銀の弾丸が存在することはあり得ない。
論文 参考訳(メタデータ) (Mon, 20 Dec 2021 13:04:18 GMT)- 自然言語処理の基礎となるTokenizeの歴史が書かれたサーベイ(?)結論は銀の弾丸はないので応用領域ごとに考えるべきというものだが、歴史が非常に参考になる。
- 特に日本語では自然言語処理には形態素解析が重要になることが多く、目的に応じて手法(アプローチ)が異なるのは納得感がある。