- VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.6]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。 幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
論文 参考訳(メタデータ) (Thu, 23 Feb 2023 18:59:36 GMT) - ボクセルが扱えるTransformer、一枚の画像から3次元形状の予測が可能で見えない部分についても一定の予測ができいるように見える。
- リポジトリはGitHub – NVlabs/VoxFormer: A Cutting-edge Baseline for 3D Semantic Occupancy Prediction