BEiT-3 – arXiv最新論文の紹介

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
汎用多目的基礎モデルBEiT-3を紹介する。視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文参考訳（メタデータ） (Mon, 22 Aug 2022 16:55:04 GMT)
- vision、vision-languageの複数のタスクでSoTAを達成するfoundation model
- 画像を外国語（言語）として扱いその後の処理を行っていることが高性能のカギという興味深い主張。Imglishという言葉も面白い。
- プロジェクトサイトはunilm/beit at master · microsoft/unilm (github.com)

コメントを残す

コメントを残す コメントをキャンセル