- Video Graph Transformer for Video Question Answering [182.1]
本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。 事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (Tue, 12 Jul 2022 06:51:32 GMT)- ビデオに対するQuestion Answeringのため動画像内のオブジェクトのグラフ構造も用いたTransformerを用いているが、こんなことが可能なんだな。。。という感想。
- リポジトリはhttps://github.com/sail-sg/VGTとのことだが、今は404
日: 2022年7月19日
SLaK: Sparse Large Kernel Network
- More ConvNets in the 2020s: Scaling up Kernels Beyond 51×51 using Sparsity [103.6]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。 本稿では,51×51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文 参考訳(メタデータ) (Thu, 7 Jul 2022 23:55:52 GMT)- 大きなカーネルサイズを持つCNNアーキテクチャの提案。ConvNeXt と同様以上の性能とのこと。
- リーダーボードはImageNet Benchmark (Image Classification) | Papers With Code?
- データの条件やパラメータサイズなど考慮事項が多く比較が簡単ではない
- リポジトリはGitHub – VITA-Group/SLaK: “More ConvNets in the 2020s: Scaling up Kernels Beyond 51×51 using Sparsity”, Shiwei Liu, Tianlong Chen, Xiaohan Chen, Xuxi Chen, Qiao Xiao, Boqian Wu, Mykola Pechenizkiy, Decebal Constantin Mocanu, Zhangyang Wang
- 大きなカーネルサイズを持つCNNアーキテクチャの提案。ConvNeXt と同様以上の性能とのこと。