Virtual Width Networks

  • Virtual Width Networks [130.5]
    VWN(Virtual Width Networks)は,隠れたサイズを増大させることなく,より広い表現の利点を提供するフレームワークである。 大規模実験では,8倍拡張により,次の2倍の2倍,次の2倍の3倍の2倍の最適化が可能となった。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 12:41:57 GMT)
  • Transfomerに統合することが可能な改善の提案、「We introduced Virtual Width Networks (VWN) as a practical mechanism to decouple representational width from the quadratic compute typically associated with widening. With a modest 1.5× expansion, we observe consistent improvements. When scaling to 8× virtual width, optimization accelerates markedly: next-token prediction loss converges more than 2× faster and multi-token prediction loss more than 3× faster relative to the baseline width. Beyond these discrete points, the performance of VWN exhibits a clear scaling behavior.」、通信やメモリ部分での制約があるとのことだが、「In practice, virtual width expansions in the 1.5×–4× range are more feasible on today’s stacks,」という記載には期待が持てる。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です