- VOLO: Vision Outlooker for Visual Recognition [148.1]
視覚変換器 (ViTs) は ImageNet 分類法において自己注意型モデルの優れたポテンタイアを示す。 本研究では,パフォーマンスギャップを解消し,注意に基づくモデルがCNNよりも優れていることを示す。
論文 参考訳(メタデータ) (Thu, 24 Jun 2021 15:46:54 GMT) - outlook attentionという構造を取り入れたVOLOという構造を提案、Extra Training Data無しの条件下でImageNet画像分類のSOTAとのこと。
- コードなどはhttps://github.com/sail-sg/voloから確認可能