Mixture-of-Transformers

  • Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [112.0]
    Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。 MoTはモデルの非埋め込みパラメータをモダリティで分離する。 複数の設定とモデルスケールでMoTを評価する。
    論文  参考訳(メタデータ)   (Thu, 07 Nov 2024 18:59:06 GMT)
  • 性能がルータに依存するMixture of Expertsに対して、「MoT extends the standard transformer architecture by incorporating modality-specific weights for all non-embedding model parameters, including feed-forward networks, attention matrices, and layer normalization.」というアプローチのMixture of Transformerの提案。「In the Chameleon 7B setting (autoregressive text-and-image generation), MoT matches the dense baseline’s performance using only 55.8% of the FLOPs.」と有効性を主張。

Fundamental Limitations on Subquadratic Alternatives to Transformers 

  • Fundamental Limitations on Subquadratic Alternatives to Transformers [3.5]
    文書類似性タスクに重点を置いており、入力された多くの文書として与えられ、最もよく似たペアを見つけたいと思っています。 我々はTransformerがこのタスクを実行できることを証明し、このタスクはどんなアルゴリズムでも真に2次時間で実行できないことを証明した。
    論文  参考訳(メタデータ)   (Sat, 05 Oct 2024 19:21:13 GMT)
  • 「We focus on document similarity tasks, where one is given as input many documents and would like to find a pair which is (approximately) the most similar. We prove that Transformer is able to perform this task, and we prove that this task cannot be performed in truly subquadratic time by any algorithm.」という主張。
  • その手のタスクがあるのはそうだろうというのとドキュメント類似性タスクに関する分析はとても興味深い。特に「Theorem 3.1. Assuming SETH or OVC, for every ε > 0, there exists a constant c > 0 such that γ-LSDn,ℓ cannot be solved in O(n^2−ε) time for any γ ≥ 1 when ℓ = c log n.」は面白い結果。(実用上は、というと話が変わる場合も多い印象ではありつつ)この手の理論解析は重要。

How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs 

  • How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs [69.6]
    本稿では,変圧器を用いた大規模言語モデルの数学的タスクにおける有効性に影響を与える重要な要因として,数値的精度を同定する。 その結果,数値精度の低いトランスフォーマーでは,繰り返し加算や整数乗算などの算術的なタスクに対処できないことがわかった。 対照的に、標準的な数値精度のトランスフォーマーは、モデルサイズを大幅に小さくすることで、これらのタスクを効率的に処理することができる。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 17:59:35 GMT)
  • 「Our results show that Transformers operating with low numerical precision fail to address arithmetic tasks, such as iterated addition and integer multiplication, unless the model size grows super-polynomially with respect to the input length.」という指摘。

A Survey of Transformer Enabled Time Series Synthesis 

  • A Survey of Transformer Enabled Time Series Synthesis [38.9]
    生成AIは画像と言語領域で多くの注目を集めている。 本稿では,変換器,生成AI,時系列データの交点におけるこのギャップを明らかにする。 レビューされた研究はアプローチの多様さを示しており、ドメインがもたらす問題に対する決定的な回答にはまだ収束していない。
    論文  参考訳(メタデータ)   (Tue, 04 Jun 2024 13:52:42 GMT)
  • Transformerと時系列データに関するサーベイ
  • TNNでtransformer neural network はあまり見ない略し方

Transformer in Touch: A Survey 

  • Transformer in Touch: A Survey [29.6]
    自然言語処理の分野で最初に大きな成功を収めたTransformerモデルは、最近、触覚認識の応用に大きな可能性を示している。 本稿では,触覚技術におけるトランスフォーマーの適用と開発について概観する。
    論文  参考訳(メタデータ)   (Tue, 21 May 2024 13:26:27 GMT)
  • 触覚の領域にもTransformerが応用されつつあるようで、そのサーベイ
  • いろいろなところで使われていて本当にすごい

xLSTM: Extended Long Short-Term Memory

  • xLSTM: Extended Long Short-Term Memory [26.6]
    1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。 正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 17:50:21 GMT)
  • LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。

You Only Cache Once: Decoder-Decoder Architectures for Language Models 

  • You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4]
    大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。 YOCOはキーと値のペアを一度だけキャッシュする。 全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
    論文  参考訳(メタデータ)   (Thu, 09 May 2024 14:12:45 GMT)
  • KVキャッシュ・計算ともに効率化可能なDecoder-Decoderモデル。3Bでの検証結果では同規模のOpenLLaMA、StableLMを超え、高速化効果が高い長いコンテキストでのNeedle-in-a-haystackも良好とのこと。ZeroSCROLLS benchmarkで長さが伸びた時も(MambaやHybridH3と異なり)Transformer同等の結果になっているのがすごい。
  • リポジトリはunilm/YOCO at master · microsoft/unilm · GitHub

Stream of Search (SoS): Learning to Search in Language

  • Stream of Search (SoS): Learning to Search in Language [29.8]
    本稿では,言語における探索の過程をフラットな文字列として表現することで,言語モデルがどのように学習するかを示す。 本稿では,複数のシンボル検索戦略を抽出する統一言語を提案する。 この結果から,言語モデルでは,探索による問題解決や,異なる探索戦略を柔軟に活用する自己改善,新たな探索手法の発見などが可能であることが示唆された。
    論文  参考訳(メタデータ)   (Mon, 01 Apr 2024 06:50:52 GMT)
  • 言語モデルに探索戦略を教え込むことが可能そうという報告。「We find that SoS pretraining increases search accuracy by 25% over models trained to predict only the optimal search trajectory.」、「The finetuned SoS models solve 36% of previously unsolved problems, including problems that cannot be solved by any of the heuristic solvers.」、Transformerは非常に強力。。
  • リポジトリはkanishkg/stream-of-search (github.com)

GSSMs vs transformerとBlack Mamba

GSSM(Generalized State Space Models)とtransformerの比較とMoEなアプローチ。昨日のMambaのICL(In Context Learning)性能 – arXiv最新論文の紹介 (devneko.jp)の通り、特性はかなり違うのでMoEっぽく使うのはありなのかもしれない。

  • Repeat After Me: Transformers are Better than State Space Models at Copying [57.4]
    一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 21:44:11 GMT)
  • シンプルな事例でのGSSMとtransformerの比較。当然なのかもだが「transformer models dramatically outperform state space models at copying and retrieving information from context.」
  • BlackMamba: Mixture of Experts for State-Space Models [10.2]
    状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。 MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。 我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 07:15:58 GMT)
  • リポジトリはZyphra/BlackMamba: Code repository for Black Mamba (github.com)、モデルも公開されている Zyphra/BlackMamba-2.8B · Hugging Face

Document Structure in Long Document Transformers

  • Document Structure in Long Document Transformers [64.8]
    長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。 文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。 長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか? 事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 08:28:06 GMT)
  • 文書構造がモデルで扱われるか及び構造をモデルに入れ込む手法提案。「Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pretraining, which can be further enhanced by structure infusion, leading to improved endtask performance.」と肯定的な見解
  • リポジトリはhttps://github.com/UKPLab/eacl2024-doc-structureとのこと(現在は404)