FLAN: 大規模テキストの正規化 – arXiv最新論文の紹介

A Fast Randomized Algorithm for Massive Text Normalization [26.6]
大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。本アルゴリズムは, 単語間のJaccard係数を利用して補正結果を提案する。実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
論文参考訳（メタデータ） (Wed, 6 Oct 2021 19:18:17 GMT)
- 大規模なデータに対しても適用可能な正規化（ミススペルの修正など）手法の提案。機械学習を利用する手法ではなく単語（サブワード）間の Jaccard similarityに注目している。ノイズを加えたデータに対して既存手法より優れた性能を発揮するとのこと。
  - 有用な報告だと思うがFLAN(Finetuned LAnguage Net)と同じ略称でややこしい。こちらのFLANは何の略なんだろう？

コメントを残す

コメントを残す コメントをキャンセル