DeepSpeed Data Efficiency

  • DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing [31.7]
    DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。 カリキュラム学習による効率的なデータサンプリングと、ランダムなレイヤワイドトークンドロップによる効率的なデータルーティングを提供する。 GPT-3 1.3B と BERT-Large 言語モデルの事前学習にソリューションを適用することで、1/2のデータと1/2の時間で同様のモデル品質を実現することができる。
    論文  参考訳(メタデータ)   (Wed, 7 Dec 2022 12:27:28 GMT)
  • データ的にも計算資源的にも効率的な学習フレームワークの提案。
  • リポジトリはmicrosoft/DeepSpeed: DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective. (github.com)

Deep Model Assembling

  • Deep Model Assembling [31.9]
    本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。 大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。 すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。 これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 08:04:06 GMT)
  • Deep Learningでの divide-and-conquer strategy 
  • 何となくうまくいきそうという感想と、なんでこれつながるんだろうという感想と不思議な感覚
  • リポジトリはLeapLabTHU/Model-Assembling: Code release for Deep Model Assembling (https://arxiv.org/abs/2212.04129) (github.com)

Diffusionモデルは絵を生成している?複製している?

  • Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models [53.0]
    生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。 フレームワークをCeleb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製にどのように影響するかを議論する。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 18:59:30 GMT)
  • 拡散モデルが絵を描いているのか学習データからコピーしているのかを検知するフレームワークの提案。サンプルとしてコピーとみなせそうな例が挙げられている。
  • 論文中には「Furthermore, it is highly likely that replication exists that our retrieval method is unable to identify.」との記載もあり、生成モデルがバズった中で言われていた懸念は現実的なリスクのよう。

Democratizing Machine Translation with OPUS-MT

  • Democratizing Machine Translation with OPUS-MT [56.2]
    本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
    論文  参考訳(メタデータ)   (Sun, 4 Dec 2022 22:16:27 GMT)
  • OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
  • OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。(FuguMT 英語→日本語日本語→英語多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている)