コンテンツへスキップ
- The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text Recognition [40.2]
手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。 歴史的写本を扱う際の主な課題は、紙の支持の保存、筆跡の多様性、また、同じ著者の幅広い期間にわたる変動、そして古代の表現が不十分な言語からのデータ不足などである。 本稿では,本研究の推進を目的として,60年以上にわたって1人の著者によって編集されたイタリア古写本の行単位のhtrデータセットである ludovico antonio muratori (lam) データセットを提案する。
論文 参考訳(メタデータ) (Tue, 16 Aug 2022 11:44:16 GMT)
- Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition [37.8]
本稿では,各文字をストローク列に分解することで,ストロークに基づく手法を提案する。 我々は、予測されたストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。 提案手法は、文字をストロークに分解できる他の言語に容易に一般化できる。
論文 参考訳(メタデータ) (Tue, 22 Jun 2021 08:49:03 GMT)- 漢字をストロークに分解したうえで文字認識をする方法。zero shotでは既存手法より優れており、そうでない設定でも競争的な性能。
- 論文中にもある通り日本語、韓国語などストロークに分解できる文字に対しては有効そう。