NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks

Computer Vision Model Compression Techniques for Embedded Systems: A Survey

  • Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.4]
    本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。 本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。 初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 16:41:55 GMT)
  • CVを対象としたモデル圧縮技術のサーベイ
  • リポジトリはGitHub – venturusbr/cv-model-compression、サンプルコードが提供されているサーベイは珍しい印象

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

  • JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.1]
    離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。 画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。  本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。
    論文  参考訳(メタデータ)   (Wed, 21 Aug 2024 00:24:53 GMT)
  • JPEGを直接扱えるL(?)Mの提案。「For generality, our models also do not use any vision-specific modules like convolutions or 2D positional embeddings, potentially making the task more challenging.」、「However, we observe that conventional, vanilla language modeling surprisingly conquers these challenges without special designs as training goes (e g , JPEG-LM generates realistic images barely with any corrupted JPEG patches).」とのこと。アーキテクチャは7B Llama-2 model、本当に強力。

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding 

  • When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.4]
    CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。 復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 11:36:18 GMT)
  • ビデオ符号化に対するMLLMの適用、マルチモーダル性を活用した手法であり興味深い。実用化にはハードルがありそうだが、可能性を感じる結果。

Training LLMs over Neurally Compressed Text

  • Training LLMs over Neurally Compressed Text [55.1]
    本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。 テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。 提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
    論文  参考訳(メタデータ)   (Thu, 04 Apr 2024 17:48:28 GMT)
  • 圧縮したテキストを用いた学習、「In particular, we find that text naïvely compressed via Arithmetic Coding is not readily learnable by LLMs.To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length.」とのこと。
  • めっちゃ面白いアイデアではあるが実用的かは謎。

Quantum Neural Network Compression

  • Quantum Neural Network Compression [23.2]
    量子ニューラルネットワークと古典ニューラルネットワークの圧縮には相違点があることが示されている。 我々は、量子ニューラルネットワークを圧縮する最初の体系的フレームワーク、CompVQCを提案する。
    論文  参考訳(メタデータ)   (Tue, 5 Jul 2022 15:19:43 GMT)
    • Quantum Neural Networks (QNNs)の性質を利用したモデル圧縮。量子ニューラルネットワークが流行るかは分からないが、通常のモデルとの違いが面白い。

COIN++(COmpression with Implicit Neural representations): DNNを用いた圧縮

  • COIN++: Data Agnostic Neural Compression [55.3]
    COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。 様々なデータモダリティを圧縮することで,本手法の有効性を示す。
    論文  参考訳(メタデータ)   (Sun, 30 Jan 2022 20:12:04 GMT)
    • 圧縮へのニューラルネットワークの応用。JPEG2000等と比べても優れた性能