BitNet

  • BitNet: Scaling 1-bit Transformers for Large Language Models [119.2]
    大規模言語モデル用に設計されたスケーラブルで安定した1ビットトランスフォーマーアーキテクチャであるBitNetを紹介する。 言語モデリングの実験結果から,BitNetはメモリフットプリントとエネルギー消費を大幅に削減しつつ,競争性能を向上することが示された。
    論文  参考訳(メタデータ)   (Tue, 17 Oct 2023 17:59:15 GMT)
  • LLMのための 1-bit Transformer architectureの提案。30Bとかなり大規模な設定で比較検証が行われており有効そうに見える。quantizationと比べて優勢があるとのこと。
  • プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

  • RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.5]
    本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。 提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
    論文  参考訳(メタデータ)   (Fri, 28 Jul 2023 21:18:02 GMT)
  • LLM + Robotのような研究が盛り上がっているが、本件ではアクションをトークン化しweb scaleのVQAデータセット+13機のロボット×17か月間のデータを使って学習を行ったとのこと。
  • プロジェクトサイトはRT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
  • 参考としてRT-1はRT-1: Robotics Transformer – arXiv最新論文の紹介 (devneko.jp)

A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks

  • A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.4]
    Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。 我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
    論文  参考訳(メタデータ)   (Sun, 11 Jun 2023 23:13:51 GMT)
  • Transformerの適用に関する総合的なサーベイ、分野としてNatural Language Processing, Computer Vision, Multi-Modal, Audio/Speech, Signal Processingを挙げ、様々な手法を紹介している。
  • 時系列での手法進化を振り返るのに良いサーベイ

A Survey on Efficient Training of Transformers

  • A Survey on Efficient Training of Transformers [72.3]
    この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。 トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 01:23:12 GMT)
  • Transformerの効率的な学習に関するサーベイ、ver3

Unlimiformer

CoLT5

  • CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
    我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
    論文  参考訳(メタデータ)   (Fri, 17 Mar 2023 03:28:17 GMT)
  • 最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA

EVA-02: A Visual Representation for Neon Genesis

  • EVA-02: A Visual Representation for Neon Genesis [49.9]
    EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。 モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
    論文  参考訳(メタデータ)   (Wed, 22 Mar 2023 14:10:37 GMT)
  • 非常に規模が大きいわけでもないが強力なVision Transformersの提案。オープンライセンスのモデルが公開されている。
  • リポジトリはEVA/EVA-02 at master · baaivision/EVA · GitHub

VoxFormer

  • VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.6]
    VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。 幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
    論文  参考訳(メタデータ)   (Thu, 23 Feb 2023 18:59:36 GMT)
  • ボクセルが扱えるTransformer、一枚の画像から3次元形状の予測が可能で見えない部分についても一定の予測ができいるように見える。
  • リポジトリはGitHub – NVlabs/VoxFormer: A Cutting-edge Baseline for 3D Semantic Occupancy Prediction

Transformer models: an introduction and catalog 

  • Transformer models: an introduction and catalog [1.4]
    本論文の目的は,最もポピュラーなTransformerモデルのカタログと分類を提供することである。 論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。
    論文  参考訳(メタデータ)   (Thu, 16 Feb 2023 05:31:15 GMT)
  • Transformerのカタログ
  • モデルカード的な情報がありがたいのと、 Date (of first known publication)があるのが非常に助かる

Toolformer

  • Toolformer: Language Models Can Teach Themselves to Use Tools [62.0]
    言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 16:49:57 GMT)
  • どのAPIを使うかを判断しながら自分で学んでいけるTransformer、と書くととても未来を感じる。外部知識の活用からの進化と考えれば妥当なのかも。
  • GPT-Jをベースに実験がされていて、より大きなモデル(GPT-3)よりも優れた性能を発揮。
  • 昔はやったマッシュアップを思い出して非常に興味深い。