Perceiver – arXiv最新論文の紹介

Uni-Perceiver v2

Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks [86.7]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。 Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文参考訳（メタデータ） (Thu, 17 Nov 2022 18:59:52 GMT)
「ﬁrst generalist model that achieves competitive results on major large-scale vision and vision-language tasks」を主張するモデルの提案
リポジトリはfundamentalvision/Uni-Perceiver (github.com)

Graph Perceiver IO: A General Architecture for Graph Structured Data [13.3]
グラフ構造化データセットのPerceiver IOであるGraph Perceiver IOを提供する。 Graph Perceiver IOは一般的な方法であり、グラフ構造化データやテキストや画像などの多様なデータセットを扱うことができる。グラフ知覚型IOは,ノード分類,グラフ分類,リンク予測など,様々なグラフ関連タスクに対する競合結果を示す。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 05:05:55 GMT)
- Perceiver のグラフ対応版、ベンチマーク結果は良さそう。

Hierarchical Perceiver [99.3]
Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理できる。これらのモデルにある程度の局所性を導入することができ、その効率を大幅に改善できることを示す。
論文参考訳（メタデータ）参考訳（全文） (Tue, 22 Feb 2022 13:39:14 GMT)
- DeepMindのPerceiverに関する論文。フラット化(一定レベルでの局所性の保存）＋チャンク分割が重要のように読めるが、マルチモーダル・前処理不要で強力な性能を維持しながら画像系処理の性能を改善というのは本当だろうか。。。

Perceiver IO: A General Architecture for Structured Inputs & Outputs [84.6]
Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟にクエリすることを学ぶ。このモデルは、高度に構造化された出力空間を持つタスクに対して強い結果を得る。 Perceiver IOは、GLUE言語ベンチマークでTransformerベースのBERTベースラインにマッチする。
論文参考訳（メタデータ） (Mon, 2 Aug 2021 17:18:43 GMT)
- 入力サイズと出力サイズの両方で線形にスケーリングしながら,汎用的な入出力を処理できるアーキテクチャであるPerceiver IOを提案。様々なタスク（自然言語処理、Optical Flow、Multimodal autoencoding、強化学習（StarCraft /AlphaStar））で優れた性能を達成したとのこと。
- Perceiverの提案はPerceiver: General Perception with Iterative Attention、Transformerを基盤とした構成だが大きな入力・より深いネットワークを構成可能とのことで今後流行るかもしれない。
- リポジトリはhttps://github.com/deepmind/deepmind-research/tree/master/perceiver