BOVText: ビデオ-テキストデータセットとend-to-endなモデル

A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
論文参考訳（メタデータ）参考訳（全文） (Thu, 9 Dec 2021 13:21:26 GMT)
- 大規模なOpen World Video Textベンチマークデータセットの提案。
- リポジトリはGitHub – weijiawu/TransVTSpotter: A new video text spotting framework with Transformer

コメントを残す

コメントを残す コメントをキャンセル