FireRed-OCR Technical Report [30.0] 本稿では,汎用VLMを専門家を解析するピクセル精度構造文書に変換するフレームワークFireRed-OCRを紹介する。 高品質な構造化データの不足に対処するため,Geometry + Semantics’s Data Factoryを構築した。 本稿では,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。 論文参考訳(メタデータ) (Mon, 02 Mar 2026 13:19:23 GMT)
OCRの改善の発表が続く。本論文では「This curriculum includes: (1) Multi-task Pre-alignment to ground the model’s understanding of document structure; (2) Specialized SFT for standardizing full- image Markdown output; and (3) Format-Constrained Group Relative Policy Optimization (GRPO), which utilizes reinforcement learning to enforce strict syntactic validity and structural integrity (e g , table closure, formula syntax). 」というアプローチでMLLMを強化。