- OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.9]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。 具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。 オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (Thu, 28 Mar 2024 03:51:14 GMT) - visually-situated text parsing(text spotting, key information extraction, table recognition)のためのフレームワークを提案。Document Understandingの上でとても重要。2 stageの特化型の構成でMLLMでの解決ではない。
- コード等はAlibabaResearch/AdvancedLiterateMachinery: A collection of original, innovative ideas and algorithms towards Advanced Literate Machinery. This project is maintained by the OCR Team in the Language Technology Lab, Alibaba DAMO Academy. (github.com)で公開予定とのこと。