Transformer – ページ 4 – arXiv最新論文の紹介

Foundation Transformers

Foundation Transformers [105.1]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文参考訳（メタデータ） (Wed, 12 Oct 2022 17:16:27 GMT)
- MicrosoftによるFoundationモデル用Transformer MAGNETOの紹介。Sub-LayerNormとDeepNet から得られた初期化戦略の導入が大きな変更で、優れた性能を達成とのこと。言語・Visionともに性能が向上しているように見える。
- プロジェクトサイトはAdvancing AGI: adaptable & generalizable intelligence (msragi.com)

CounTR: Counting TRansformer

CounTR: Transformer-based Generalised Visual Counting [94.5]
我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。 FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
論文参考訳（メタデータ） (Mon, 29 Aug 2022 17:02:45 GMT)
- Few-shotのように事例を与えることで任意のオブジェクトをカウントできる手法の提案。 FSC-147でSoTAを主張。
- プロジェクトサイトはCounTR: Transformer-based Generalised Visual Counting (verg-avesta.github.io)

リモートセンシングにおけるVision Transformer

Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model [98.0]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文参考訳（メタデータ） (Wed, 10 Aug 2022 09:31:40 GMT)
- Vitの活用事例であり、比較対象が多く参考になる。DOTA Benchmark (Object Detection In Aerial Images) | Papers With Codeなど多くのデータセットでSoTA。
- リポジトリはGitHub – ViTAE-Transformer/Remote-Sensing-RVSA: The official repo for the paper “Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model”

3D処理におけるVision transformerのサーベイ

3D Vision with Transformers: A Survey [114.9]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文参考訳（メタデータ） (Mon, 8 Aug 2022 17:59:11 GMT)
- 3D処理でも非常に流行しているtransformerのサーベイ100以上の手法が調査対象とのことで非常に幅広い。
- プロジェクトサイトはGitHub – lahoud/3d-vision-transformers: A list of 3D computer vision papers with Transformers

ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文参考訳（メタデータ） (Thu, 11 Aug 2022 03:44:02 GMT)
- （一部の）画像、スケッチ、テキスト入力などからファッション画像（服全体など）を生成する研究。柄の一部＋テキスト指示で服の画像全体を作ることなどが可能とのこと。
  - 内容とは関係ないが、かなり無理がある略称
- リポジトリはGitHub – Harvey594/ARMANI

Neural Knowledge Bank (NKB) ：事前学習モデルにおける知識蓄積機構

Neural Knowledge Bank for Pretrained Transformers [20.4]
本稿では,事前学習したトランスフォーマーに対して,現実的な知識を蓄積する神経知識銀行を提案する。知識注入中、元のモデルを修正し、拡張メモリスロットに事実知識を注入する。 3つのクローズドブックの質問応答データセットを使用して、余分な事実知識を格納する強力な能力を示しています。
論文参考訳（メタデータ） (Sun, 31 Jul 2022 09:14:34 GMT)
- Neural Knowledge Bank (NKB) という知識格納領域をTransformer内に作っておき、事後に知識を投入できるという論文。AIモデルを一定程度事後に編集できるということで非常に画期的だと思う。

Video Graph Transformer (VGT) for Video Quetion Answering (VideoQA)

Video Graph Transformer for Video Question Answering [182.1]
本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
論文参考訳（メタデータ） (Tue, 12 Jul 2022 06:51:32 GMT)
- ビデオに対するQuestion Answeringのため動画像内のオブジェクトのグラフ構造も用いたTransformerを用いているが、こんなことが可能なんだな。。。という感想。
- リポジトリはhttps://github.com/sail-sg/VGTとのことだが、今は404

Traveling Salesperson Problem + 深層強化学習

Solving the Traveling Salesperson Problem with Precedence Constraints by Deep Reinforcement Learning [59.1]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文参考訳（メタデータ）参考訳（全文） (Mon, 4 Jul 2022 14:31:47 GMT)
- TSPに対するDeep learning（Transformer）の適用。LKH-3の方が優れているのでは？と思わなくもないが、テーブルデータに対するDeep系モデル適用のように状況（Transferを使うなど）によっては意味があるのだろうか。
- リポジトリはGitHub – christianll9/tsppc-drl: Solving the Traveling Salesperson Problem with Precedence Constraints (TSPPC) by Deep Reinforcement Learning

PLATON(Pruning LArge TransfOrmer with uNcertainty)

PLATON: Pruning Large Transformer Models with Upper Confidence Bound of Weight Importance [114.2]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文参考訳（メタデータ） (Sat, 25 Jun 2022 05:38:39 GMT)
- 重要性と不確実性の両方を考慮しながらPruningを行う手法の提案。BERT、ViT-B16を用いて有効性を検証、既存手法を上回る性能を出したとのこと。
- リポジトリはQingruZhang/PLATON · GitHubとのことだが、現時点ではソースなどは公開されていない。

DEMSD（Deep Encoder with Multiple Shallow Decoders ）を使った多言語機械翻訳

Multilingual Neural Machine Translation with Deep Encoder and Multiple Shallow Decoders [77.2]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。 2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文参考訳（メタデータ） (Sun, 5 Jun 2022 01:15:04 GMT)
- 機械翻訳では深いエンコーダと浅いデコーダの組み合わせが有効である。この論文では多対１の機械翻訳での有効性の検証、多対多機械翻訳の場合の対応を報告している。多対多機械翻訳ではデコーダ部分を複数の浅い構造とすることで翻訳性能と速度で良好な結果が出せたとのこと。

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31