非構造文書からのテーブル構造推定と抽出

  • Scientific evidence extraction [0.0]
    我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。 PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。 PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
    論文  参考訳(メタデータ)   (Thu, 30 Sep 2021 19:42:07 GMT)
    • 簡単そうで(?)難しいPDFドキュメント内表形式データの認識とデータ抽出に関する論文。大規模(948K≒1M)なデータセットPubTable-1Mを作成、DETR(Detection Transformer)を TD (Table Detection), TSR(Table Structure Recognition), FA (Functional Analysis)に適用、優れた性能を達成したとのこと。
    • リポジトリはhttps://github.com/microsoft/table-transformer

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です