Transformer – ページ 3 – arXiv最新論文の紹介

A Survey on Efficient Training of Transformers

A Survey on Efficient Training of Transformers [72.3]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文参考訳（メタデータ） (Thu, 4 May 2023 01:23:12 GMT)
Transformerの効率的な学習に関するサーベイ、ver3

Unlimiformer: Long-Range Transformers with Unlimited Length Input [74.5]
Unlimiformerはすべてのレイヤの注意をひとつの$k$-nearest-neighborインデックスにオフロードする。 BookSumデータセットから350kのトークン長の入力を、テスト時に入力トランケーションなしでまとめることができる。
論文参考訳（メタデータ） (Tue, 2 May 2023 17:35:08 GMT)
長文を扱えるTransformer、Unlimiformerという名前が凄い
仕組み上バックボーンには様々なモデルが使えそう。でもこれで○○formerと名乗ってよいかは謎。（有用そうであることは確か）
リポジトリはGitHub – abertsch72/unlimiformer: Public repo for the preprint “Unlimiformer: Long-Range Transformers with Unlimited Length Input”

CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文参考訳（メタデータ） (Fri, 17 Mar 2023 03:28:17 GMT)
最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA

EVA-02: A Visual Representation for Neon Genesis [49.9]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 14:10:37 GMT)
非常に規模が大きいわけでもないが強力なVision Transformersの提案。オープンライセンスのモデルが公開されている。
リポジトリはEVA/EVA-02 at master · baaivision/EVA · GitHub

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.6]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
論文参考訳（メタデータ） (Thu, 23 Feb 2023 18:59:36 GMT)
ボクセルが扱えるTransformer、一枚の画像から３次元形状の予測が可能で見えない部分についても一定の予測ができいるように見える。
リポジトリはGitHub – NVlabs/VoxFormer: A Cutting-edge Baseline for 3D Semantic Occupancy Prediction

Transformer models: an introduction and catalog [1.4]
本論文の目的は,最もポピュラーなTransformerモデルのカタログと分類を提供することである。論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。
論文参考訳（メタデータ） (Thu, 16 Feb 2023 05:31:15 GMT)
Transformerのカタログ
モデルカード的な情報がありがたいのと、 Date (of ﬁrst known publication)があるのが非常に助かる

Toolformer: Language Models Can Teach Themselves to Use Tools [62.0]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 16:49:57 GMT)
どのAPIを使うかを判断しながら自分で学んでいけるTransformer、と書くととても未来を感じる。外部知識の活用からの進化と考えれば妥当なのかも。
GPT-Jをベースに実験がされていて、より大きなモデル（GPT-3）よりも優れた性能を発揮。
昔はやったマッシュアップを思い出して非常に興味深い。

A Survey on Efficient Training of Transformers [72.3]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 13:58:18 GMT)
非常に広く用いられているTransformerについて効率的に学習を行うためのサーベイ。11ページ、引用数87と短め。
GPT-3の学習コストが335 GPU-year、$4.6Mと推測されているとのことで、巨大なモデルを作ろうと思う場合はこの手の手法をよく調査する必要がある。

RT-1: Robotics Transformer for Real-World Control at Scale [98.1]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文参考訳（メタデータ） (Tue, 13 Dec 2022 18:55:15 GMT)
大規模なデータを収集、Transformerで構築したモデルの提案。Transfomerの優秀性がよくわかる。
13台のロボット、17か月間で700タスク13万エピソードとさすがの規模。700以上の命令に対して97%の成功率、新たなタスクについても効果有とのこと。
大規模とはいえやってやれないことはない企業はありそうだが、Transformerでやりきるという選択はすごいなーと思う。
RT-1: Robotics Transformer (robotics-transformer.github.io)

TorchScale: Transformers at Scale [109.3]
スケーリングに関するほとんどのオープンソースライブラリは、並列化の改善によるトレーニングや推論の改善に重点を置いている。私たちは、研究者や開発者がTransformerを効率的にスケールアップできるオープンソースツールキットであるTorchScaleを紹介します。
論文参考訳（メタデータ） (Wed, 23 Nov 2022 17:58:51 GMT)
Transformerを効率的にスケールアップするツール
リポジトリはmicrosoft/torchscale: Transformers at any scale (github.com)