Transformer – ページ 2 – arXiv最新論文の紹介

A Survey of Transformer Enabled Time Series Synthesis

A Survey of Transformer Enabled Time Series Synthesis [38.9]
生成AIは画像と言語領域で多くの注目を集めている。本稿では,変換器,生成AI,時系列データの交点におけるこのギャップを明らかにする。レビューされた研究はアプローチの多様さを示しており、ドメインがもたらす問題に対する決定的な回答にはまだ収束していない。
論文参考訳（メタデータ） (Tue, 04 Jun 2024 13:52:42 GMT)
Transformerと時系列データに関するサーベイ
TNNでtransformer neural network はあまり見ない略し方

Transformer in Touch: A Survey

Transformer in Touch: A Survey [29.6]
自然言語処理の分野で最初に大きな成功を収めたTransformerモデルは、最近、触覚認識の応用に大きな可能性を示している。本稿では,触覚技術におけるトランスフォーマーの適用と開発について概観する。
論文参考訳（メタデータ） (Tue, 21 May 2024 13:26:27 GMT)
触覚の領域にもTransformerが応用されつつあるようで、そのサーベイ
いろいろなところで使われていて本当にすごい

xLSTM: Extended Long Short-Term Memory

xLSTM: Extended Long Short-Term Memory [26.6]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文参考訳（メタデータ） (Tue, 07 May 2024 17:50:21 GMT)
LSTMの拡張、「xLSTM models perform favorably on language modeling when compared to state-of-the-art methods like Transformers and State Space Models.」と主張。RWKVやMamba、Llamaと詳細な比較を行っているが、より大規模だとどうなるかが気になるところではある。

You Only Cache Once: Decoder-Decoder Architectures for Language Models

You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4]
大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。 YOCOはキーと値のペアを一度だけキャッシュする。全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
論文参考訳（メタデータ） (Thu, 09 May 2024 14:12:45 GMT)
KVキャッシュ・計算ともに効率化可能なDecoder-Decoderモデル。3Bでの検証結果では同規模のOpenLLaMA、StableLMを超え、高速化効果が高い長いコンテキストでのNeedle-in-a-haystackも良好とのこと。ZeroSCROLLS benchmarkで長さが伸びた時も（MambaやHybridH3と異なり）Transformer同等の結果になっているのがすごい。
リポジトリはunilm/YOCO at master · microsoft/unilm · GitHub

Stream of Search (SoS): Learning to Search in Language

Stream of Search (SoS): Learning to Search in Language [29.8]
本稿では,言語における探索の過程をフラットな文字列として表現することで,言語モデルがどのように学習するかを示す。本稿では,複数のシンボル検索戦略を抽出する統一言語を提案する。この結果から,言語モデルでは,探索による問題解決や,異なる探索戦略を柔軟に活用する自己改善,新たな探索手法の発見などが可能であることが示唆された。
論文参考訳（メタデータ） (Mon, 01 Apr 2024 06:50:52 GMT)
言語モデルに探索戦略を教え込むことが可能そうという報告。「We find that SoS pretraining increases search accuracy by 25% over models trained to predict only the optimal search trajectory.」、「The finetuned SoS models solve 36% of previously unsolved problems, including problems that cannot be solved by any of the heuristic solvers.」、Transformerは非常に強力。。
リポジトリはkanishkg/stream-of-search (github.com)

1 bit(1.58 bit)なLLMとHAWK・Griffin

LLMにおいて高速化は非常に重要。先週バズった「The Era of 1-bit LLMs」と「Griffin」は異なるアプローチではあるが今の標準レシピを改善していく取り組み。

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.7]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。 1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文参考訳（メタデータ） (Tue, 27 Feb 2024 18:56:19 GMT)
-1, 0, 1のみを用いたLLM（学習時は8bit）、高速な学習・推論が可能
リポジトリはmicrosoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities (github.com)、非公式な実装があるようkyegomez/BitNet: Implementation of “BitNet: Scaling 1-bit Transformers for Large Language Models” in pytorch (github.com)

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models [101.7]
我々は、ゲート線形再帰を持つRNNのHawkと、ゲート線形再帰と局所的な注意を混合したハイブリッドモデルGriffinを提案する。ホークは下流でのマンバのパフォーマンスを上回り、グリフィンは6倍以上のトークンで訓練されているにもかかわらず、ラマ-2のパフォーマンスに匹敵する。 Griffinを14Bパラメータまで拡張し、効率的な分散トレーニングのためにモデルをシャーディングする方法を説明します。
論文参考訳（メタデータ） (Thu, 29 Feb 2024 18:24:46 GMT)
RNNベースのHAWK、ハイブリッドアーキテクチャのGriffinの提案。HAWKは非常に高速だが、性能は同規模のTransformerと競合するレベル（Mambaより優れているよう）。Griffinはそれをoutperformしているように見える。7Bや14Bと大規模な検証をしているあたりさすがGoogle DeepMind。

GSSMs vs transformerとBlack Mamba

GSSM（Generalized State Space Models）とtransformerの比較とMoEなアプローチ。昨日のMambaのICL（In Context Learning）性能 – arXiv最新論文の紹介 (devneko.jp)の通り、特性はかなり違うのでMoEっぽく使うのはありなのかもしれない。

Repeat After Me: Transformers are Better than State Space Models at Copying [57.4]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (Thu, 1 Feb 2024 21:44:11 GMT)
シンプルな事例でのGSSMとtransformerの比較。当然なのかもだが「transformer models dramatically outperform state space models at copying and retrieving information from context.」

BlackMamba: Mixture of Experts for State-Space Models [10.2]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。 MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文参考訳（メタデータ） (Thu, 1 Feb 2024 07:15:58 GMT)
リポジトリはZyphra/BlackMamba: Code repository for Black Mamba (github.com)、モデルも公開されている　Zyphra/BlackMamba-2.8B · Hugging Face

Document Structure in Long Document Transformers

Document Structure in Long Document Transformers [64.8]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか? 事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文参考訳（メタデータ） (Wed, 31 Jan 2024 08:28:06 GMT)
文書構造がモデルで扱われるか及び構造をモデルに入れ込む手法提案。「Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pretraining, which can be further enhanced by structure infusion, leading to improved endtask performance.」と肯定的な見解
リポジトリはhttps://github.com/UKPLab/eacl2024-doc-structureとのこと（現在は404）

BitNet

BitNet: Scaling 1-bit Transformers for Large Language Models [119.2]
大規模言語モデル用に設計されたスケーラブルで安定した1ビットトランスフォーマーアーキテクチャであるBitNetを紹介する。言語モデリングの実験結果から,BitNetはメモリフットプリントとエネルギー消費を大幅に削減しつつ,競争性能を向上することが示された。
論文参考訳（メタデータ） (Tue, 17 Oct 2023 17:59:15 GMT)
LLMのための 1-bit Transformer architectureの提案。30Bとかなり大規模な設定で比較検証が行われており有効そうに見える。quantizationと比べて優勢があるとのこと。
プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.5]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (Fri, 28 Jul 2023 21:18:02 GMT)
LLM + Robotのような研究が盛り上がっているが、本件ではアクションをトークン化しweb scaleのVQAデータセット＋13機のロボット×17か月間のデータを使って学習を行ったとのこと。
プロジェクトサイトはRT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
参考としてRT-1はRT-1: Robotics Transformer – arXiv最新論文の紹介 (devneko.jp)

2025年12月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31