- MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.4]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。 結果は、最先端の3D CNNやビデオトランスフォーマーに匹敵する。
論文 参考訳(メタデータ) (Mon, 13 Jun 2022 16:21:33 GMT)- 動画に対する処理でもMLPがCNNやtransformerに匹敵とのこと。2次元画像でも繰り広げられた話題であるが、結局どこがポイントになっとるんだろうか。
- リポジトリはGitHub – ZhaofanQiu/MLP-3D: PyTorch implementation of CVPR2022 paper MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing.