STR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルの融合

  • Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation [41.4]
    私たちは、2つの最先端のSTR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルと好適に競合できる単一のモデルを目指しています。 まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。 次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 10:10:34 GMT)
    • STRとHTRは似て非なるタスクであり、通常はモデルを相互利用できない(大幅な制度劣化が発生する)。蒸留の枠組みを用い通常のロス関数と4つのロス関数(Logits’ Distillation Loss, Character Localised Hint Loss, Attention Distillation Loss, Affinity Distillation Loss)を用いてSTRをHTR統合、生徒となるモデルを構築することで性能が向上するとのこと。

ICDAR 2021 SVTS(Scene Video Text Spotting)のコンペティション

  • ICDAR 2021 Competition on Scene Video Text Spotting [28.4]
    シーンビデオテキストスポッティング(SVTS)は,多くの実環境応用のために非常に重要な研究課題である。 本稿では,SVTS コンペティションにおける ICDAR 2021 のデータセット記述,タスク定義,評価プロトコル,結果要約について述べる。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 01:25:57 GMT)
    • 動画像からテキストを認識(ビデオテキスト検出やテキストトラッキング)するコンペティションの結果報告。静的なOCRよりも格段に難しいタスク。
    • 全24チームが参加したとのこと。上位チームのアプローチは参考になる。Task3 Tencentのチームのアプローチはてんこ盛り感があって凄い。

IERN(Interventional Emotion Recognition Network): データセットバイアスを軽減した感情認識

  • Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.7]
    本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。 IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 10:40:59 GMT)
    • 表情の変化に伴う画像の劣化(ブレやぼやけ)を感情を表す証拠と誤認識するバイアスを避けるため、因果推論のbackdoor adjustmentを実現する新しい介入感情認識ネットワークを提案。因果推論を利用する他のアプローチより優れていることを確認したとのこと。