JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

  • JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.1]
    離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。 画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。  本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。
    論文  参考訳(メタデータ)   (Wed, 21 Aug 2024 00:24:53 GMT)
  • JPEGを直接扱えるL(?)Mの提案。「For generality, our models also do not use any vision-specific modules like convolutions or 2D positional embeddings, potentially making the task more challenging.」、「However, we observe that conventional, vanilla language modeling surprisingly conquers these challenges without special designs as training goes (e g , JPEG-LM generates realistic images barely with any corrupted JPEG patches).」とのこと。アーキテクチャは7B Llama-2 model、本当に強力。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です