コンテンツへスキップ
- Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling [104.8]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。 提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (Mon, 29 Nov 2021 18:59:03 GMT)
- PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.1]
我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。 1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。 共同学習はシンプルで実践的であることを示す。
論文 参考訳(メタデータ) (Thu, 25 Nov 2021 10:01:05 GMT)- パラメータの多くを共有しつつ複数のモダリティを扱いえるアーキテクチャの提案。9つのimage-classification, video-classification, audio-classificationを同時に解決可能、3つのビデオと2つのオーディオデータセットでSoTAとのこと。前の投稿とも関連する報告。
- Transfomerの強力さがよくわかると同時にモダリティ間に何らかの関連があるのだろうか。。
- PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.9]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。 本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (Tue, 23 Nov 2021 18:57:11 GMT)
- UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。 既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (Fri, 19 Nov 2021 03:23:10 GMT)- 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。
- Swin Transformer V2: Scaling Up Capacity and Resolution [45.5]
我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536×1,536解像度の画像でトレーニングできるようにする。 キャパシティと解像度をスケールアップすることで、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 18 Nov 2021 18:59:33 GMT)
- A Survey of Visual Transformers [30.1]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。 コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。 我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (Thu, 11 Nov 2021 07:56:04 GMT)- 画像分野におけるTransformerのサーベイ。
- 同様のサーベイとしては下記がある(本論文でもイントロダクションで触れられている)
- Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。 近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。 視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (Wed, 10 Nov 2021 16:04:49 GMT)- VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。
- Masked Autoencoders Are Scalable Vision Learners [61.0]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。 我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。 これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 11 Nov 2021 18:46:40 GMT)- Masked Autoencoderという自然言語処理を彷彿とさせる学習法の提案。ImageNet-1KでSoTAとのこと。
- Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [94.0]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。 提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (Fri, 29 Oct 2021 04:01:32 GMT)- 自然言語処理の論文のような論文だが扱っている対象はタンパク質。LSTMも有効だったとのことでMLMに効果がありそうなのはわかるが、この手の構造が汎用的に有効なのか、バイオ系に特化した構造というのがあるのかないのかは興味がある。
- s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning [47.3]
条件付き生成タスクに予めトレーニングされたトランスフォーマーを採用するシーケンス・ツー・シーケンスの微調整ツールキット s2s-ft を提案する。 S2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を達成する。
論文 参考訳(メタデータ) (Tue, 26 Oct 2021 12:45:34 GMT) - 生成系タスクに適したモデルの提案。同パラメータ数の比較でAbstract Summarization / CNNDMでPEGASUSを超える性能。
- リポジトリはhttps://github.com/microsoft/unilm/tree/master/s2s-ft