2024年11月15日 – arXiv最新論文の紹介

Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation [7.4]
医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。 3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
論文参考訳（メタデータ） (Sun, 03 Nov 2024 17:57:00 GMT)
医療用ビデオモデルの提案、アイコンの通りMambaベースの手法を採用しているのが面白い。
プロジェクトサイトはMedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation

Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective [31.5]
本稿では、最近の進歩を概観し、自己回帰的視覚基盤モデルの将来的な方向性について論じる。我々は,次世代の視覚基礎モデルのトレンドを提示し,視覚タスクの理解と生成を統一する。我々は、自己回帰的視覚基盤モデルを、その視覚トークン化剤と自己回帰バックボーンから分類する。
論文参考訳（メタデータ） (Tue, 29 Oct 2024 16:48:22 GMT)
テキスト分野だけではなく画像においてもさらには画像生成においても存在感を増すAutoregressionモデル、autoregressive vision foundation modelのサーベイ
リポジトリはGitHub – EmmaSRH/ARVFM: Awesome autoregressive vision foundation models