STR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルの融合

Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation [41.4]
私たちは、2つの最先端のSTR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルと好適に競合できる単一のモデルを目指しています。まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
論文参考訳（メタデータ） (Mon, 26 Jul 2021 10:10:34 GMT)
- STRとHTRは似て非なるタスクであり、通常はモデルを相互利用できない（大幅な制度劣化が発生する）。蒸留の枠組みを用い通常のロス関数と4つのロス関数（Logits’ Distillation Loss, Character Localised Hint Loss, Attention Distillation Loss, Affinity Distillation Loss）を用いてSTRをHTR統合、生徒となるモデルを構築することで性能が向上するとのこと。

コメントを残す

コメントを残す コメントをキャンセル