VoxFormer

  • VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.6]
    VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。 幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
    論文  参考訳(メタデータ)   (Thu, 23 Feb 2023 18:59:36 GMT)
  • ボクセルが扱えるTransformer、一枚の画像から3次元形状の予測が可能で見えない部分についても一定の予測ができいるように見える。
  • リポジトリはGitHub – NVlabs/VoxFormer: A Cutting-edge Baseline for 3D Semantic Occupancy Prediction

Transformer models: an introduction and catalog 

  • Transformer models: an introduction and catalog [1.4]
    本論文の目的は,最もポピュラーなTransformerモデルのカタログと分類を提供することである。 論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。
    論文  参考訳(メタデータ)   (Thu, 16 Feb 2023 05:31:15 GMT)
  • Transformerのカタログ
  • モデルカード的な情報がありがたいのと、 Date (of first known publication)があるのが非常に助かる

Toolformer

  • Toolformer: Language Models Can Teach Themselves to Use Tools [62.0]
    言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 16:49:57 GMT)
  • どのAPIを使うかを判断しながら自分で学んでいけるTransformer、と書くととても未来を感じる。外部知識の活用からの進化と考えれば妥当なのかも。
  • GPT-Jをベースに実験がされていて、より大きなモデル(GPT-3)よりも優れた性能を発揮。
  • 昔はやったマッシュアップを思い出して非常に興味深い。

A Survey on Efficient Training of Transformers 

  • A Survey on Efficient Training of Transformers [72.3]
    この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。 トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 13:58:18 GMT)
  • 非常に広く用いられているTransformerについて効率的に学習を行うためのサーベイ。11ページ、引用数87と短め。
  • GPT-3の学習コストが335 GPU-year、$4.6Mと推測されているとのことで、巨大なモデルを作ろうと思う場合はこの手の手法をよく調査する必要がある。

RT-1: Robotics Transformer

  • RT-1: Robotics Transformer for Real-World Control at Scale [98.1]
    我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。 実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
    論文  参考訳(メタデータ)   (Tue, 13 Dec 2022 18:55:15 GMT)
  • 大規模なデータを収集、Transformerで構築したモデルの提案。Transfomerの優秀性がよくわかる。
  • 13台のロボット、17か月間で700タスク13万エピソードとさすがの規模。700以上の命令に対して97%の成功率、新たなタスクについても効果有とのこと。
  • 大規模とはいえやってやれないことはない企業はありそうだが、Transformerでやりきるという選択はすごいなーと思う。
  • RT-1: Robotics Transformer (robotics-transformer.github.io)

TorchScale: Transformers at Scale

  • TorchScale: Transformers at Scale [109.3]
    スケーリングに関するほとんどのオープンソースライブラリは、並列化の改善によるトレーニングや推論の改善に重点を置いている。 私たちは、研究者や開発者がTransformerを効率的にスケールアップできるオープンソースツールキットであるTorchScaleを紹介します。
    論文  参考訳(メタデータ)   (Wed, 23 Nov 2022 17:58:51 GMT)
  • Transformerを効率的にスケールアップするツール
  • リポジトリはmicrosoft/torchscale: Transformers at any scale (github.com)

Foundation Transformers

  • Foundation Transformers [105.1]
    我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。 本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 17:16:27 GMT)
    • MicrosoftによるFoundationモデル用Transformer MAGNETOの紹介。Sub-LayerNormとDeepNet から得られた初期化戦略の導入が大きな変更で、優れた性能を達成とのこと。言語・Visionともに性能が向上しているように見える。
    • プロジェクトサイトはAdvancing AGI: adaptable & generalizable intelligence (msragi.com)

CounTR:  Counting TRansformer

  • CounTR: Transformer-based Generalised Visual Counting [94.5]
    我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。 FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
    論文  参考訳(メタデータ)   (Mon, 29 Aug 2022 17:02:45 GMT)

リモートセンシングにおけるVision Transformer

3D処理におけるVision transformerのサーベイ

  • 3D Vision with Transformers: A Survey [114.9]
    自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。 本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。 我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
    論文  参考訳(メタデータ)   (Mon, 8 Aug 2022 17:59:11 GMT)