- Omnivore: A Single Model for Many Visual Modalities [47.9]
以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。 同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
論文 参考訳(メタデータ) (Thu, 20 Jan 2022 18:58:03 GMT)- 画像関連のデータ(普通の画像、動画、シングルビューの3D)について共通的に動作可能な(複数のモダリティに対応可能な)モデルの提案。リポジトリを見ると複数のタスクでSoTAを達成している。各モダリティ専用の構造でないにもかかわらず優れた性能を出せるのは驚き。