コンテンツへスキップ
- CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文 参考訳(メタデータ) (Fri, 17 Mar 2023 03:28:17 GMT)
- 最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA
- EVA-02: A Visual Representation for Neon Genesis [49.9]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。 モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文 参考訳(メタデータ) (Wed, 22 Mar 2023 14:10:37 GMT)
- 非常に規模が大きいわけでもないが強力なVision Transformersの提案。オープンライセンスのモデルが公開されている。
- リポジトリはEVA/EVA-02 at master · baaivision/EVA · GitHub
- Transformer models: an introduction and catalog [1.4]
本論文の目的は,最もポピュラーなTransformerモデルのカタログと分類を提供することである。 論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。
論文 参考訳(メタデータ) (Thu, 16 Feb 2023 05:31:15 GMT)
- Transformerのカタログ
- モデルカード的な情報がありがたいのと、 Date (of first known publication)があるのが非常に助かる
- Toolformer: Language Models Can Teach Themselves to Use Tools [62.0]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文 参考訳(メタデータ) (Thu, 9 Feb 2023 16:49:57 GMT)
- どのAPIを使うかを判断しながら自分で学んでいけるTransformer、と書くととても未来を感じる。外部知識の活用からの進化と考えれば妥当なのかも。
- GPT-Jをベースに実験がされていて、より大きなモデル(GPT-3)よりも優れた性能を発揮。
- 昔はやったマッシュアップを思い出して非常に興味深い。
- A Survey on Efficient Training of Transformers [72.3]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。 トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文 参考訳(メタデータ) (Thu, 2 Feb 2023 13:58:18 GMT)
- 非常に広く用いられているTransformerについて効率的に学習を行うためのサーベイ。11ページ、引用数87と短め。
- GPT-3の学習コストが335 GPU-year、$4.6Mと推測されているとのことで、巨大なモデルを作ろうと思う場合はこの手の手法をよく調査する必要がある。
- RT-1: Robotics Transformer for Real-World Control at Scale [98.1]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。 実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (Tue, 13 Dec 2022 18:55:15 GMT)
- 大規模なデータを収集、Transformerで構築したモデルの提案。Transfomerの優秀性がよくわかる。
- 13台のロボット、17か月間で700タスク13万エピソードとさすがの規模。700以上の命令に対して97%の成功率、新たなタスクについても効果有とのこと。
- 大規模とはいえやってやれないことはない企業はありそうだが、Transformerでやりきるという選択はすごいなーと思う。
- RT-1: Robotics Transformer (robotics-transformer.github.io)
- Foundation Transformers [105.1]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。 本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文 参考訳(メタデータ) (Wed, 12 Oct 2022 17:16:27 GMT)