A Survey on Efficient Training of Transformers 

  • A Survey on Efficient Training of Transformers [72.3]
    この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。 トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 13:58:18 GMT)
  • 非常に広く用いられているTransformerについて効率的に学習を行うためのサーベイ。11ページ、引用数87と短め。
  • GPT-3の学習コストが335 GPU-year、$4.6Mと推測されているとのことで、巨大なモデルを作ろうと思う場合はこの手の手法をよく調査する必要がある。

RT-1: Robotics Transformer

  • RT-1: Robotics Transformer for Real-World Control at Scale [98.1]
    我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。 実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
    論文  参考訳(メタデータ)   (Tue, 13 Dec 2022 18:55:15 GMT)
  • 大規模なデータを収集、Transformerで構築したモデルの提案。Transfomerの優秀性がよくわかる。
  • 13台のロボット、17か月間で700タスク13万エピソードとさすがの規模。700以上の命令に対して97%の成功率、新たなタスクについても効果有とのこと。
  • 大規模とはいえやってやれないことはない企業はありそうだが、Transformerでやりきるという選択はすごいなーと思う。
  • RT-1: Robotics Transformer (robotics-transformer.github.io)

TorchScale: Transformers at Scale

  • TorchScale: Transformers at Scale [109.3]
    スケーリングに関するほとんどのオープンソースライブラリは、並列化の改善によるトレーニングや推論の改善に重点を置いている。 私たちは、研究者や開発者がTransformerを効率的にスケールアップできるオープンソースツールキットであるTorchScaleを紹介します。
    論文  参考訳(メタデータ)   (Wed, 23 Nov 2022 17:58:51 GMT)
  • Transformerを効率的にスケールアップするツール
  • リポジトリはmicrosoft/torchscale: Transformers at any scale (github.com)

Foundation Transformers

  • Foundation Transformers [105.1]
    我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。 本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 17:16:27 GMT)
    • MicrosoftによるFoundationモデル用Transformer MAGNETOの紹介。Sub-LayerNormとDeepNet から得られた初期化戦略の導入が大きな変更で、優れた性能を達成とのこと。言語・Visionともに性能が向上しているように見える。
    • プロジェクトサイトはAdvancing AGI: adaptable & generalizable intelligence (msragi.com)

CounTR:  Counting TRansformer

  • CounTR: Transformer-based Generalised Visual Counting [94.5]
    我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。 FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
    論文  参考訳(メタデータ)   (Mon, 29 Aug 2022 17:02:45 GMT)

リモートセンシングにおけるVision Transformer

3D処理におけるVision transformerのサーベイ

  • 3D Vision with Transformers: A Survey [114.9]
    自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。 本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。 我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
    論文  参考訳(メタデータ)   (Mon, 8 Aug 2022 17:59:11 GMT)

ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

  • ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
    クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
    論文  参考訳(メタデータ)   (Thu, 11 Aug 2022 03:44:02 GMT)
    • (一部の)画像、スケッチ、テキスト入力などからファッション画像(服全体など)を生成する研究。柄の一部+テキスト指示で服の画像全体を作ることなどが可能とのこと。
      • 内容とは関係ないが、かなり無理がある略称
    • リポジトリはGitHub – Harvey594/ARMANI

Neural Knowledge Bank (NKB) :事前学習モデルにおける知識蓄積機構

  • Neural Knowledge Bank for Pretrained Transformers [20.4]
    本稿では,事前学習したトランスフォーマーに対して,現実的な知識を蓄積する神経知識銀行を提案する。 知識注入中、元のモデルを修正し、拡張メモリスロットに事実知識を注入する。 3つのクローズドブックの質問応答データセットを使用して、余分な事実知識を格納する強力な能力を示しています。
    論文  参考訳(メタデータ)   (Sun, 31 Jul 2022 09:14:34 GMT)
    • Neural Knowledge Bank (NKB) という知識格納領域をTransformer内に作っておき、事後に知識を投入できるという論文。AIモデルを一定程度事後に編集できるということで非常に画期的だと思う。

Video Graph Transformer (VGT) for Video Quetion Answering (VideoQA)

  • Video Graph Transformer for Video Question Answering [182.1]
    本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。 事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
    論文  参考訳(メタデータ)   (Tue, 12 Jul 2022 06:51:32 GMT)
    • ビデオに対するQuestion Answeringのため動画像内のオブジェクトのグラフ構造も用いたTransformerを用いているが、こんなことが可能なんだな。。。という感想。
    • リポジトリはhttps://github.com/sail-sg/VGTとのことだが、今は404