Large Scale Neural Network Trainingのサーベイ

  • Survey on Large Scale Neural Network Training [48.4]
    現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。 この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
    論文  参考訳(メタデータ)   (Mon, 21 Feb 2022 18:48:02 GMT)
    • 大規模ニューラルネットをいかに学習するかに関するサーベイ。Single GPU、マルチ GPU双方の内容を扱っている。8ページと短いが様々なアプローチとトレードオフが整理されていて面白い。

効率性を表す指標たちとその問題

  • The Efficiency Misnomer [50.7]
    我々は、共通のコスト指標、それらの利点とデメリット、そしてそれらが相互に矛盾する方法について論じる。 コストインジケータの不完全な報告が、どのようにして部分的な結論をもたらすかを示し、異なるモデルの実践的考察の曖昧さや不完全さを図示する。
    論文  参考訳(メタデータ)   (Mon, 25 Oct 2021 12:48:07 GMT)
    • モデルの効率を表す指標としてパラメータ数やFLOPs、スループット等が用いられるが不完全なものであることを指摘。例えばモデル①、②、③に対してパラメータ数/性能のグラフは①<②<③、FLOPS/性能のグラフは③<②<①のように順位が一定しない事がある。特にコストを表す指標としてパラメータ数は適切でないことが多いと指摘。
      • 実装やっているとよく思うが、これに関わらずモデル構造間の比較は簡単ではない・・・。

Mobile-Former: MobileNet + Transformer

  • Mobile-Former: Bridging MobileNet and Transformer [42.6]
    我々はMobileNetとTransformerの並列設計であるMobile-Formerについて述べる。 Mobile-Formerは計算効率が良いだけでなく、より表現力があり、低FLOPでMobileNetV3を上回っている。
    論文  参考訳(メタデータ)   (Thu, 12 Aug 2021 17:59:55 GMT)
    • 局所的な表現ではMobileNet、大域的な部分はTransformerと2つのモデルを併用することで効率的・高速だが性能の高いモデルを構築できたとの報告。
    • RELATED WORKにもある通りこのような構成は最近よく見かける。