効率性 – ページ 3 – arXiv最新論文の紹介

Deep Model Assembling

Deep Model Assembling [31.9]
本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 08:04:06 GMT)
Deep Learningでの divide-and-conquer strategy
何となくうまくいきそうという感想と、なんでこれつながるんだろうという感想と不思議な感覚
リポジトリはLeapLabTHU/Model-Assembling: Code release for Deep Model Assembling (https://arxiv.org/abs/2212.04129) (github.com)

TorchScale: Transformers at Scale [109.3]
スケーリングに関するほとんどのオープンソースライブラリは、並列化の改善によるトレーニングや推論の改善に重点を置いている。私たちは、研究者や開発者がTransformerを効率的にスケールアップできるオープンソースツールキットであるTorchScaleを紹介します。
論文参考訳（メタデータ） (Wed, 23 Nov 2022 17:58:51 GMT)
Transformerを効率的にスケールアップするツール
リポジトリはmicrosoft/torchscale: Transformers at any scale (github.com)

A Compact Pretraining Approach for Neural Language Models [21.8]
事前学習したNLMは、データのコンパクトなサブセットから、ドメイン内の情報をより効率的に、より高速に学習できることを示す。抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクトな部分集合を構築する。我々の戦略は、バニラ予習に比べて、予習時間を最大5倍削減します。
論文参考訳（メタデータ） (Mon, 29 Aug 2022 00:54:42 GMT)
- 要約結果＆重要なキーワードの組み合わせにより全データ＆ランダムマスクな方針よりも高速に学習（ターゲットドメインへの適合）ができるとの報告
  - ドメインを合わせるために重要な部分のみを使うというのは直感的には良さそうな方針に思えるがBART要約 & KeyBERTで作ってそうなるのかはどうなんだろう。実験結果ではランダムマスクに勝っているのでうまく動いているっぽいが。。。
- リポジトリはshahriargolchin/compact-pretraining (github.com)

Embedding Recycling for Language Models [38.1]
我々は, 埋込みリサイクル(ER)によるそのような環境下での計算コストの削減について検討する。我々は、事前訓練されたモデルから中間層の出力をキャッシュし、残りのレイヤを微調整して新しいタスクを行う方法を提案する。本研究では,本手法が学習中の100%の高速化,55～86%の推論速度向上を実現し,学術領域におけるテキスト分類とエンティティ認識タスクの精度への影響を無視できることを示した。
論文参考訳（メタデータ）参考訳（全文） (Mon, 11 Jul 2022 16:36:14 GMT)
- layerを凍結させるのではなく、出力をキャッシュして学習等を高速化する仕組みの提案。（当然ながら）最初にデータすべてのrepresantaionを計算する必要がある。
- リポジトリはGitHub – allenai/EmbeddingRecycling

EfficientFormer: Vision Transformers at MobileNet Speed [43.9]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Jun 2022 17:51:03 GMT)
- MobileNetV2 より高速で高性能なTransformer系モデルの提案。性能と速度のトレードオフでEfficientNetも上回っている。遅い部分の特定や高速化の設計なども参考になる。
- EfficientFormerはパラメータ数が少ないわけではないが高速というのが面白い。実機（iPhone 12）で計測されているのも重要だと思う。
  - 「We conclude that nonlinearity should be determined on a case-by-case basis given speciﬁc hardware and compiler at hand.」ですよねー
- リポジトリはGitHub – snap-research/EfficientFormer

Survey on Large Scale Neural Network Training [48.4]
現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
論文参考訳（メタデータ） (Mon, 21 Feb 2022 18:48:02 GMT)
- 大規模ニューラルネットをいかに学習するかに関するサーベイ。Single GPU、マルチ GPU双方の内容を扱っている。8ページと短いが様々なアプローチとトレードオフが整理されていて面白い。

The Efficiency Misnomer [50.7]
我々は、共通のコスト指標、それらの利点とデメリット、そしてそれらが相互に矛盾する方法について論じる。コストインジケータの不完全な報告が、どのようにして部分的な結論をもたらすかを示し、異なるモデルの実践的考察の曖昧さや不完全さを図示する。
論文参考訳（メタデータ） (Mon, 25 Oct 2021 12:48:07 GMT)
- モデルの効率を表す指標としてパラメータ数やFLOPs、スループット等が用いられるが不完全なものであることを指摘。例えばモデル①、②、③に対してパラメータ数/性能のグラフは①＜②＜③、FLOPS/性能のグラフは③＜②＜①のように順位が一定しない事がある。特にコストを表す指標としてパラメータ数は適切でないことが多いと指摘。
  - 実装やっているとよく思うが、これに関わらずモデル構造間の比較は簡単ではない・・・。

Mobile-Former: Bridging MobileNet and Transformer [42.6]
我々はMobileNetとTransformerの並列設計であるMobile-Formerについて述べる。 Mobile-Formerは計算効率が良いだけでなく、より表現力があり、低FLOPでMobileNetV3を上回っている。
論文参考訳（メタデータ） (Thu, 12 Aug 2021 17:59:55 GMT)
- 局所的な表現ではMobileNet、大域的な部分はTransformerと2つのモデルを併用することで効率的・高速だが性能の高いモデルを構築できたとの報告。
- RELATED WORKにもある通りこのような構成は最近よく見かける。