PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing [16.3]
我々はOmniDocBench v1.5上で94.5%の新しい最先端(SOTA)精度を実現するアップグレードモデルであるPaddleOCR-VL-1.5を紹介する。我々は,シール認識とテキストスポッティングタスクを組み込むことでモデルの能力を拡張し,0.9B超コンパクトVLMを高効率で維持する。
論文参考訳（メタデータ） (Thu, 29 Jan 2026 16:35:04 GMT)
最近中国のモデルが激戦を繰り広げているOCR、BaiduのPaddleからも小型高効率のモデルが出ている
リポジトリはGitHub – PaddlePaddle/PaddleOCR: Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

コメントを残す

コメントを残す コメントをキャンセル