Transformer – ページ 5 – arXiv最新論文の紹介

医療画像分野のTransformer利用サーベイ

Transforming medical imaging with Transformers? A comparative review of key properties, current progresses, and future perspectives [18.0]
ディープラーニングの最新技術進歩であるTransformerは、自然言語処理やコンピュータビジョンで普及している。我々は、医療画像に対する最先端のTransformerベースのアプローチを包括的にレビューする。
論文参考訳（メタデータ） (Thu, 2 Jun 2022 16:38:31 GMT)
- 医療分野の画像処理でTransformerがどのように使われているかのサーベイ。
- 医療分野とあるが一般的な画像処理でも重要な考え方が多く参考になる。当然ながらMedical image reconstructionなどドメイン依存のタスクも興味深い。

EfficientFormer

EfficientFormer: Vision Transformers at MobileNet Speed [43.9]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Jun 2022 17:51:03 GMT)
- MobileNetV2 より高速で高性能なTransformer系モデルの提案。性能と速度のトレードオフでEfficientNetも上回っている。遅い部分の特定や高速化の設計なども参考になる。
- EfficientFormerはパラメータ数が少ないわけではないが高速というのが面白い。実機（iPhone 12）で計測されているのも重要だと思う。
  - 「We conclude that nonlinearity should be determined on a case-by-case basis given speciﬁc hardware and compiler at hand.」ですよねー
- リポジトリはGitHub – snap-research/EfficientFormer

Inception Transformer

Inception Transformer [151.9]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文参考訳（メタデータ） (Thu, 26 May 2022 17:18:32 GMT)
- Transfomerは長距離の関係を捉える能力は高いがローカルの情報を捉える能力が低い。Inception TransformerはInception mixerとfrequency ramp structureを導入することでパラメータ効率を高めているとのこと。
  - Inception mixer: 複数のモジュール（高周波成分の抽出を狙ったものと低周波成分を狙ったもの）を並列につなげる構造
  - frequency ramp structure: 4ステージの中で高周波成分と低周波成分のトレードオフ（ローカルな構造を捉えるため下位層は高周波優先など）が可能な構造。
- リポジトリはGitHub – sail-sg/iFormer: iFormer: Inception Transformer

Transformers in 3D Point Clouds: A Survey

Transformers in 3D Point Clouds: A Survey [27.8]
3Dトランスフォーマーモデルは、長距離依存モデリングの驚くべき能力があることが証明されている。本調査は,各種タスク用に設計された3Dトランスフォーマーの概要を概観することを目的としている。
論文参考訳（メタデータ） (Mon, 16 May 2022 01:32:18 GMT)
- 3D Transformerに関するサーベイ。いたるところにトランスフォーマーが採用されている。

TransTab: テーブルデータの埋め込み

TransTab: Learning Transferable Tabular Transformers Across Tables [42.9]
タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である異なる列の異なるテーブルをマージするには重いデータクリーニングが必要です TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 19 May 2022 05:34:46 GMT)
- テーブルデータを埋め込み表現にすることで列が異なるテーブルにも対応可能という論文。
  - 列名を含めて扱えばできそうという感覚と、やっぱり簡単ではないのではという感覚があってやや疑念がある。XGBoostがLogistic Regressionに完全に負けているのもやや違和感。コードが公開されているのでそのうち試してみたい。
- リポジトリはGitHub – RyanWangZf/transtab: TransTab: A flexible tabular prediction model

Gato: 汎用エージェント

A Generalist Agent [89.9]
Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネリストポリシーである。同じ重さのネットワークでも、Atariやキャプション画像、チャット、本物のロボットアームのスタックブロックなどをプレイできる。
論文参考訳（メタデータ） (Thu, 12 May 2022 16:03:26 GMT)
- DeepMindから発表された汎用的にタスクを解けるモデル。テキストだけでなく画像や関節のトルクといったデータもシーケンスとして扱って大規模言語モデルっぽい処理を行っている。
- 「 Transformer sequence models are eﬀective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks.」ということで改めてTransformerの強力さが分かる。

VQGAN & Transformerによるビデオ生成

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.6]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 7 Apr 2022 17:59:02 GMT)
- 長編ビデオの合成。プロジェクトサイトはLong Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer (songweige.github.io)

UFO (Unified Framework for Co-Object Segmentation)

A Unified Transformer Framework for Group-based Segmentation: Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.2]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。 UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 9 Mar 2022 13:35:19 GMT)
- co-segmentation (CoS), co-saliency detection (CoSD) 、video salient object detection (VSOD)を統一的に扱うフレームワークの提案。
- リポジトリはGitHub – suyukun666/UFO: Official PyTorch implementation of the unified transformer framework for Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection. SoTAが並ぶ

DiT(Document Image Transformer): Transformer + MIMな事前学習による文書構造認識

DiT: Self-supervised Pre-training for Document Image Transformer [85.8]
自己教師付き文書画像変換モデルであるDiTを提案する。さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文参考訳（メタデータ） (Fri, 4 Mar 2022 15:34:46 GMT)
- Masked Image Modelingな大規模事前学習を行いDocument Image Transformerを構築、document image classiﬁcation、document layout analysis、 table detectionでSoTAとのこと。OCRの前処理などに重要であり、モデルが公開されているのがありがたい。
- リポジトリはunilm/dit at master · microsoft/unilm · GitHub

DeepNet: 1000層のTransformer

DeepNet: Scaling Transformers to 1,000 Layers [106.3]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文参考訳（メタデータ） (Tue, 1 Mar 2022 15:36:38 GMT)
- deepnormを導入することでTransformerを1000層まで深くできるとの報告。機械翻訳において有望な結果。多言語のM2M-100を大きく上回る性能を達成しているように見える。
- リポジトリはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31