2022年6月8日 – arXiv最新論文の紹介

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [16.3]
大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。 CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
論文参考訳（メタデータ） (Sun, 29 May 2022 19:02:15 GMT)
- テキストからのビデオ生成、すでにクオリティが高い。「Nightfall in a metropolis.」では「夕日→日が沈む→暗くなる」という時間経過の概念がある動画も作れているのが凄い。
- リポジトリはGitHub – THUDM/CogVideo: Text-to-video generation.

Dataset Condensation via Efficient Synthetic-Data Parameterization [40.6]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文参考訳（メタデータ） (Thu, 2 Jun 2022 05:45:02 GMT)
- 凝縮したデータをさらに複数組み合わせる形で用いて、ストレージ制約のある状況下で効率的に学習が可能なデータを合成する研究。
  - Dataset condenstaionは面白い研究で（性能が上がれば）実用性もありそうな気がするが、こういうデータにもPoisoningできたりするのだろうかという素朴な疑問
- リポジトリはGitHub – snu-mllab/Efficient-Dataset-Condensation: Official PyTorch implementation of “Dataset Condensation via Efficient Synthetic-Data Parameterization” (ICML’22)

日: 2022年6月8日