コンテンツへスキップ
- Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks [86.7]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。 具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。 Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (Thu, 17 Nov 2022 18:59:52 GMT)
- 「first generalist model that achieves competitive results on major large-scale vision and vision-language tasks」を主張するモデルの提案
- リポジトリはfundamentalvision/Uni-Perceiver (github.com)
- Graph Perceiver IO: A General Architecture for Graph Structured Data [13.3]
グラフ構造化データセットのPerceiver IOであるGraph Perceiver IOを提供する。 Graph Perceiver IOは一般的な方法であり、グラフ構造化データやテキストや画像などの多様なデータセットを扱うことができる。 グラフ知覚型IOは,ノード分類,グラフ分類,リンク予測など,様々なグラフ関連タスクに対する競合結果を示す。
論文 参考訳(メタデータ) (Wed, 14 Sep 2022 05:05:55 GMT)- Perceiver のグラフ対応版、ベンチマーク結果は良さそう。
- Hierarchical Perceiver [99.3]
Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理できる。 これらのモデルにある程度の局所性を導入することができ、その効率を大幅に改善できることを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 22 Feb 2022 13:39:14 GMT)- DeepMindのPerceiverに関する論文。フラット化(一定レベルでの局所性の保存)+チャンク分割が重要のように読めるが、マルチモーダル・前処理不要で強力な性能を維持しながら画像系処理の性能を改善というのは本当だろうか。。。