コンテンツへスキップ
- 非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸(写実性、テキストとの類似性、多様性)でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
- オブジェクトへの属性反映はGLIDEの方が優れている(色やサイズ、位置関係の反映がイマイチ)
- テキスト生成が弱い(画像中にテキストを入れる場合正しい出力にならないことがある)
- 複雑な画像を生成しにくい(「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある)
- 技術的にはCLIP による分散表現とdiffusion model(GLIDEベース)が活用されているとのこと。
- サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)
- Automatic Song Translation for Tonal Languages [23.1]
歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。 自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 25 Mar 2022 02:25:33 GMT)