LAM Dataset

  • The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text Recognition [40.2]
    手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。  歴史的写本を扱う際の主な課題は、紙の支持の保存、筆跡の多様性、また、同じ著者の幅広い期間にわたる変動、そして古代の表現が不十分な言語からのデータ不足などである。 本稿では,本研究の推進を目的として,60年以上にわたって1人の著者によって編集されたイタリア古写本の行単位のhtrデータセットである ludovico antonio muratori (lam) データセットを提案する。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 11:44:16 GMT)
    • (人間でも読解困難と思われる)歴史的写本の文字認識データセット。
    • プロジェクトサイトはAImageLab – – (unimore.it)

Strokeに注目したCCR(Chinese character recognition)

  • Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition [37.8]
    本稿では,各文字をストローク列に分解することで,ストロークに基づく手法を提案する。 我々は、予測されたストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。 提案手法は、文字をストロークに分解できる他の言語に容易に一般化できる。
    論文  参考訳(メタデータ)   (Tue, 22 Jun 2021 08:49:03 GMT)
    • 漢字をストロークに分解したうえで文字認識をする方法。zero shotでは既存手法より優れており、そうでない設定でも競争的な性能。
    • 論文中にもある通り日本語、韓国語などストロークに分解できる文字に対しては有効そう。