コンテンツへスキップ
- Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures [47.3]
本研究では,トランスフォーマーとステートスペースモデルを組み合わせたハイブリッドアーキテクチャが,2つの合成インコンテキスト検索タスクにおいて両世界の長所を達成できるかどうかを考察する。 ハイブリッドモデルはSSMを上回り、データ効率と情報深度コンテキスト検索のための外挿においてTransformerを上回ります。
論文 参考訳(メタデータ) (Tue, 03 Mar 2026 11:28:33 GMT)
- 公開モデルでも採用例の多いtransformer+state space modelの有効性を検証した論文、「Hybrid models outperform both pure Transformers and SSMs on n-gram retrieval in terms of data efficiency, length generalization, and robustness to duplicate queries.」とのこと。
- MemoryLLM: Plug-n-Play Interpretable Feed-Forward Memory for Transformers [22.5]
MemoryLLMは、フィードフォワードモジュールを自己アテンションから切り離すことを目的としている。 トークンの埋め込みを使って、自己注意から独立してトレーニングする。 システムは、文脈のないトークン単位の埋め込みでFFNをトレーニングすることによるパフォーマンスギャップを橋渡しする。
論文 参考訳(メタデータ) (Fri, 30 Jan 2026 23:25:20 GMT)
- 新たな構造によるメモリ機構の分析、「We found that knowledge associated with lexically and semantically similar tokens are indexed across similar memory locations within FFNs. This knowledge is crucial for the performance of retrieval-based tasks.」とのこと。
- 一般的に用いられる構造になるかは不明としてこの手の研究は面白い。
- mHC: Manifold-Constrained Hyper-Connections [43.9]
ハイパーコネクション(HC)は、残流幅を拡大し、接続パターンを多様化することで、ユビキタスな残差接続パラダイムを拡張した。 残留接続に固有のアイデンティティマッピング特性を復元するために,manifold-Constrained Hyper-Connection (mHC)を提案する。 mHCは大規模なトレーニングに有効で、具体的なパフォーマンス改善と優れたスケーラビリティを提供する。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 14:16:26 GMT)
- DeepseekによるHyper-Connectionsからの改善提案。「mHC yields comprehensive improvements, consistently outperforming the baseline and surpassing HC on the majority of tasks. Notably, compared to HC, mHC further enhances the model’s reasoning capabilities, delivering performance gains of 2.1% on BBH (Suzgun et al , 2022) and 2.3% on DROP (Dua et al , 2019).」と効果を確認。27Bと相応の規模で実験をしている点もさすがというところ。
- MATHについてはHCに僅差ではあるが負けていて理由が気になるところではある。
- Virtual Width Networks [130.5]
VWN(Virtual Width Networks)は,隠れたサイズを増大させることなく,より広い表現の利点を提供するフレームワークである。 大規模実験では,8倍拡張により,次の2倍の2倍,次の2倍の3倍の2倍の最適化が可能となった。
論文 参考訳(メタデータ) (Fri, 14 Nov 2025 12:41:57 GMT)
- Transfomerに統合することが可能な改善の提案、「We introduced Virtual Width Networks (VWN) as a practical mechanism to decouple representational width from the quadratic compute typically associated with widening. With a modest 1.5× expansion, we observe consistent improvements. When scaling to 8× virtual width, optimization accelerates markedly: next-token prediction loss converges more than 2× faster and multi-token prediction loss more than 3× faster relative to the baseline width. Beyond these discrete points, the performance of VWN exhibits a clear scaling behavior.」、通信やメモリ部分での制約があるとのことだが、「In practice, virtual width expansions in the 1.5×–4× range are more feasible on today’s stacks,」という記載には期待が持てる。
- Lizard: An Efficient Linearization Framework for Large Language Models [100.6]
我々は,事前学習したトランスフォーマーベース大規模言語モデル(LLM)を,無限コンテキスト生成のための柔軟性のあるサブクワッドアーキテクチャに変換する線形化フレームワークであるLizardを提案する。 Lizardは、出力品質を保ちながらソフトマックスアテンションを正確に近似するサブクワッドアテンションメカニズムを導入することで、この制限に対処する。 そこで本研究では,Lizardが従来の線形化手法を著しく上回りながら,標準言語モデリングタスクにおける教師モデルの性能のほぼ無作為な回復を実現していることを示す。
論文 参考訳(メタデータ) (Fri, 11 Jul 2025 21:19:18 GMT)
- 「Lizard (Linearizing Softmax Attention with Recurrent Gate Dynamics), an efficient framework for linearizing LLMs」の提案。
- 「We train our model in two stages: (1) an attention approximation stage where the subquadratic modules are trained to mimic softmax attention outputs, and (2) a fine-tuning stage where the linearized model is adapted to downstream language modeling objectives.」と既存モデルを活用していくアプローチで拡張に使用する学習データが少なく、性能劣化も抑えられるとのこと。
- It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization [26.4]
我々は、ニューラルネットワークを連想記憶モジュールとして再認識し、注意バイアスと呼ばれる内部的目的を用いてキーと値のマッピングを学習する。 高速並列化可能なトレーニングプロセスを維持しつつ、既存の線形RNNのパワーを超える3つの新しいシーケンスモデル(Moneta、Yaad、Memora)を提示する。 例えば、Mirasの特定のインスタンスは、言語モデリング、コモンセンス推論、リコール集約タスクのような特別なタスクで例外的なパフォーマンスを達成し、トランスフォーマーや他の現代的な線形リカレントモデルよりも優れています。
論文 参考訳(メタデータ) (Thu, 17 Apr 2025 17:59:33 GMT)
- Googleによる新たなアーキテクチャの探索、Mirasフレームワークの提案、Building upon our formulation of memory and forget gate, we present Miras1, a fundamental framework to design novel sequence modeling architectures by four choice of: (1) Attentional bias (i.e., memory objective), (2) Retention gate, (3) Memory architecture, and (4) Memory learning algorithm (i.e., optimizer).
- 有望なアーキテクチャとしてMoneta, Yaad, Memoraを選定し性能を確認。1.3Bまでと規模が小さめであるが非常に有望な結果に見える。
- Transformers without Normalization [58.8]
トランスフォーマーの正規化レイヤのドロップイン置換として、DyT($x$) = tanh(alpha $x$)$という要素演算式であるDynamic Tanh(DyT)を導入する。 我々は、認識から生成、教師付き学習、教師付き学習、コンピュータビジョンから言語モデルまで、様々な環境において、DyTを用いたトランスフォーマーの有効性を検証する。
論文 参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:06 GMT)
- 「We introduce Dynamic Tanh (DyT), an element-wise operation DyT(x) = tanh(αx), as a drop-in replacement for normalization layers in Transformers.」とのこと。知見として興味深く、「DyT improves training and inference speed, making it a candidate for efficiency-oriented network design.」と計算コスト的にも有利とのこと。
- Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention [32.5]
我々は、アルゴリズムのイノベーションとハードウェアの最適化を統合する、ネイティブにトレーニング可能なスパースアテンションメカニズムであるNSAを紹介する。 NSAは動的な階層的なスパース戦略を採用し、粗粒のトークン圧縮と細粒のトークン選択を組み合わせて、グローバルなコンテキスト認識と局所的精度の両方を維持する。
論文 参考訳(メタデータ) (Sun, 16 Feb 2025 11:53:44 GMT)
- DeepSeekによる階層的、スパースなアテンションの提案。通常の実装に比べ数倍以上高速。
- 「Following the common practice in state-of-the-art LLMs, our experiments adopt a backbone combining Grouped-Query Attention (GQA) and Mixture-of-Experts (MoE), featuring 27B total parameters with 3B active parameters.」という構成で実験をしており、品質もAverageではfull attention以上という成績。
- Byte Latent Transformer: Patches Scale Better Than Tokens [101.1]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。 固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文 参考訳(メタデータ) (Fri, 13 Dec 2024 05:33:32 GMT)
- バイト単位のTransformerは様々提案されてきたが、大規模なモデル構築は計算量の点で厳しかった。本件では「To efficiently allocate compute, we propose a dynamic, learnable method for grouping bytes into patches (§2) and a new model architecture that mixes byte and patch information.」という手法を提案。「Overall, for fixed inference costs, BLT shows significantly better scaling than tokenization-based models, by simultaneously growing both patch and model size.」とのこと。
- リポジトリはGitHub – facebookresearch/blt: Code for BLT research paper
- Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [112.0]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。 MoTはモデルの非埋め込みパラメータをモダリティで分離する。 複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (Thu, 07 Nov 2024 18:59:06 GMT)
- 性能がルータに依存するMixture of Expertsに対して、「MoT extends the standard transformer architecture by incorporating modality-specific weights for all non-embedding model parameters, including feed-forward networks, attention matrices, and layer normalization.」というアプローチのMixture of Transformerの提案。「In the Chameleon 7B setting (autoregressive text-and-image generation), MoT matches the dense baseline’s performance using only 55.8% of the FLOPs.」と有効性を主張。