FLAN: 大規模テキストの正規化

  • A Fast Randomized Algorithm for Massive Text Normalization [26.6]
    大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。 本アルゴリズムは, 単語間のJaccard係数を利用して補正結果を提案する。 実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
    論文  参考訳(メタデータ)   (Wed, 6 Oct 2021 19:18:17 GMT)
    • 大規模なデータに対しても適用可能な正規化(ミススペルの修正など)手法の提案。機械学習を利用する手法ではなく単語(サブワード)間の Jaccard similarityに注目している。ノイズを加えたデータに対して既存手法より優れた性能を発揮するとのこと。
      • 有用な報告だと思うがFLAN(Finetuned LAnguage Net)と同じ略称でややこしい。こちらのFLANは何の略なんだろう?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です