JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

  • JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.1]
    離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。 画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。  本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。
    論文  参考訳(メタデータ)   (Wed, 21 Aug 2024 00:24:53 GMT)
  • JPEGを直接扱えるL(?)Mの提案。「For generality, our models also do not use any vision-specific modules like convolutions or 2D positional embeddings, potentially making the task more challenging.」、「However, we observe that conventional, vanilla language modeling surprisingly conquers these challenges without special designs as training goes (e g , JPEG-LM generates realistic images barely with any corrupted JPEG patches).」とのこと。アーキテクチャは7B Llama-2 model、本当に強力。

Imagen 3 

  • Imagen 3 [130.7]
    本稿では,テキストプロンプトから高品質な画像を生成する潜時拡散モデルであるImagen 3を紹介する。 安全と表現に関する問題と、モデルの潜在的な害を最小限にするために使用した手法について議論する。
    論文  参考訳(メタデータ)   (Tue, 13 Aug 2024 16:15:50 GMT)
  • Imagen3が発表、性能の高さ「Imagen 3 is preferred over other state-of-the-art (SOTA) models at the time of evaluation.」はさすがとして、「Responsible Development and Deployment」がとても興味深い。

Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux

先週も生成(だけではないが)AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃(Segment Anything – arXiv最新論文の紹介 (devneko.jp))から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場(Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com))した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。

これらモデルの多く(FLUX.1は一部)が公開されているのが非常に興味深い。

  • SAM 2: Segment Anything in Images and Videos
    segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。
  • 動画のセグメンテーションがSAM的に可能になったSAM2。
  • 公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2

Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face

FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。

PartCraft

  • PartCraft: Crafting Creative Objects by Parts [128.3]
    本稿では、ユーザが「選択」できることによって、生成的視覚AIにおける創造的制御を促進する。 私たちは初めて、創造的な努力のために、視覚的概念をパーツごとに選択できるようにしました。 選択された視覚概念を正確にキャプチャするきめ細かい生成。
    論文  参考訳(メタデータ)   (Fri, 5 Jul 2024 15:53:04 GMT)
  • 「Instead of text or sketch, we “select” desired parts to create an object.」というタイプの画像生成。パーツに注目して組み合わせることができるとなると用途は広そう。
  • リポジトリはGitHub – kamwoh/partcraft: PartCraft: Crafting Creative Objects by Parts (ECCV2024)

Dynamic Typography: Bringing Text to Life via Video Diffusion Prior

  • Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.7]
    動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。 意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。 本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 06:06:29 GMT)
  • デモが非常にかっこいいDynamic Typography生成手法の提案。入力文字のベジェ曲線の制御点とベクトルグラフィクス(SVG)を連動させるアプローチでこちらも興味深い。
  • 🪄 animate your word! (animate-your-word.github.io)

UniHuman

  • UniHuman: A Unified Model for Editing Human Images in the Wild [52.4]
    実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。 モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。 ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
    論文  参考訳(メタデータ)   (Fri, 22 Dec 2023 05:00:30 GMT)
  • 人間の画像を編集するためのモデルの提案、Adobeがかかわっており、「 we curated 400K high-quality image-text pairs for training and collected 2K human image pairs for out-of-domain testing.」はさすが。

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

  • PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [15.7]
    PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
    論文  参考訳(メタデータ)   (Thu, 21 Dec 2023 15:51:12 GMT)
  • 入力画像+テキストからのアニメーション生成。アニメ中の破綻が少ない。
  • リポジトリはPIA: Personalized Image Animator (pi-animator.github.io)、デモもある。

Holistic Evaluation of Text-To-Image Models

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation

  • LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
    レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。 提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
    論文  参考訳(メタデータ)   (Wed, 9 Aug 2023 17:45:04 GMT)
  • LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
  • プロジェクトサイトはLayoutLLM-T2I

Infinigen 

  • Infinite Photorealistic Worlds using Procedural Generation [135.1]
    インフィニゲン(Infinigen)は、自然界のフォトリアリスティックな3Dシーンのプロシージャジェネレータである。 形状からテクスチャに至るまで、すべての資産はランダム化された数学的ルールによってゼロから生成される。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:20:37 GMT)
  • 美しい3Dシーンのジェネレータ。Deepでぽん的なアプローチではない。Real geometry、OSSと凄いソフトウェア。
  • プロジェクトサイトはHome | Infinigen、リポジトリはGitHub – princeton-vl/infinigen: Infinite Photorealistic Worlds using Procedural Generation