OCRデータは機械翻訳モデルの性能を向上させるか

OCR Improves Machine Translation for Low-Resource Languages [10.0]
我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。次に,OCRエラーが機械翻訳性能に与える影響について検討する。
論文参考訳（メタデータ） (Sun, 27 Feb 2022 02:36:45 GMT)
- OCRによって得られたモノリンガルデータは（リソースが少ない言語の）械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
- 現時点ではデータ等はアップされていない。

コメントを残す

コメントを残す コメントをキャンセル