DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

  • 非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸(写実性、テキストとの類似性、多様性)でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
    • オブジェクトへの属性反映はGLIDEの方が優れている(色やサイズ、位置関係の反映がイマイチ)
    • テキスト生成が弱い(画像中にテキストを入れる場合正しい出力にならないことがある)
    • 複雑な画像を生成しにくい(「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある)
  • 技術的にはCLIP による分散表現とdiffusion model(GLIDEベース)が活用されているとのこと。
  • サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)

Automatic Song Translation: 歌詞の自動翻訳

  • Automatic Song Translation for Tonal Languages [23.1]
    歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。 自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 02:25:33 GMT)
    • 歌詞の翻訳は元の意味を保持することに加えて、既存の音楽の韻律に一致する必要があり難しい。音素だけでなく発音によって意味が異なる言語の場合は問題が大きい。著者らはこのタスクを定義、データセットを作成、モデル構築(翻訳モデル構築では外部データを活用)を行っている。下記サイトのデモが面白い(が中国語が分からないので、翻訳の有効性が確認できず残念)。
    • リポジトリはAutomatic Song Translation for Tonal Languages (with Demo) (gagast.github.io)