- A Fast Randomized Algorithm for Massive Text Normalization [26.6]
大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。 本アルゴリズムは, 単語間のJaccard係数を利用して補正結果を提案する。 実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
論文 参考訳(メタデータ) (Wed, 6 Oct 2021 19:18:17 GMT)- 大規模なデータに対しても適用可能な正規化(ミススペルの修正など)手法の提案。機械学習を利用する手法ではなく単語(サブワード)間の Jaccard similarityに注目している。ノイズを加えたデータに対して既存手法より優れた性能を発揮するとのこと。
- 有用な報告だと思うがFLAN(Finetuned LAnguage Net)と同じ略称でややこしい。こちらのFLANは何の略なんだろう?
- 大規模なデータに対しても適用可能な正規化(ミススペルの修正など)手法の提案。機械学習を利用する手法ではなく単語(サブワード)間の Jaccard similarityに注目している。ノイズを加えたデータに対して既存手法より優れた性能を発揮するとのこと。