セグメンテーション – arXiv最新論文の紹介

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文参考訳（メタデータ） (Tue, 07 Jan 2025 18:58:54 GMT)
「By leveraging the knowledge from both LLaVA and SAM-2, our model has strong capabilities in both mask and language generation.」とのこと。なるほど、という感じ。
リポジトリはSa2VA

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory [23.5]
本稿では,視覚的物体追跡に特化して設計されたSAM 2を改良したSAmuraiを紹介する。提案した動き認識メモリ選択機構に時間的動作手がかりを組み込むことで、物体の動きを効果的に予測し、マスク選択を洗練し、トレーニングや微調整を必要とせず、堅牢で正確なトラッキングを実現する。評価では、既存のトラッカーよりも成功率と精度が大幅に向上し、LaSOT$_ext$で7.1%、GOT-10kで3.5%向上した。
論文参考訳（メタデータ） (Mon, 18 Nov 2024 05:59:03 GMT)
オブジェクトトラッキングに特化しSAMを改良したSAM-based Unified and Robust zero-shot visual tracker with motionAware Instance-level memory、SAMURAI。
リポジトリはGitHub – yangchris11/samurai: Official repository of “SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory”

On Efficient Variants of Segment Anything Model: A Survey

On Efficient Variants of Segment Anything Model: A Survey [63.1]
Segment Anything Model (SAM) は画像分割タスクの基本モデルであり、多様なアプリケーションにまたがる強力な一般化で知られている。これを解決するために、精度を犠牲にすることなく効率を高めるために様々なSAM変種が提案されている。この調査は、これらの効率的なSAM変種に関する最初の包括的なレビューを提供する。
論文参考訳（メタデータ） (Mon, 07 Oct 2024 11:59:54 GMT)
SAMのサーベイ
効率化を主体としたものとはいえこれだけの変種があるのに驚き。。

Image Segmentation in Foundation Model Era: A Survey

Image Segmentation in Foundation Model Era: A Survey [99.2]
イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
論文参考訳（メタデータ） (Fri, 23 Aug 2024 10:07:59 GMT)
画像におけるセグメンテーションのサーベイ
「Image segmentation is a long-standing challenge in computer vision, studied continuously over several decades, as evidenced by seminal algorithms such as N-Cut, FCN, and MaskFormer.」、「With the advent of foundation models (FMs), contemporary segmentation methodologies have embarked on a new epoch by either adapting FMs (e g , CLIP, Stable Diffusion, DINO) for image segmentation or developing dedicated segmentation foundation models (e g , SAM).
」とのことでこの分野も激変している。

Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux

先週も生成（だけではないが）AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃（Segment Anything – arXiv最新論文の紹介 (devneko.jp)）から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場（Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com)）した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。

これらモデルの多く（FLUX.1は一部）が公開されているのが非常に興味深い。

SAM 2: Segment Anything in Images and Videos
segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。
動画のセグメンテーションがSAM的に可能になったSAM2。
公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2

Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face

FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation [16.3]
マルチモーダルなセマンティックセグメンテーションのためのSiamese MambaネットワークであるSigmaを紹介する。シームズエンコーダを用いて,マンバ核融合機構を革新することにより,様々なモーダルから本質的な情報を効果的に選択する。本手法はRGB-ThermalとRGB-Depthのセグメンテーションタスクにおいて厳密に評価される。
論文参考訳（メタデータ） (Fri, 05 Apr 2024 17:59:44 GMT)
MambaベースのMulti-modal semantic segmentationモデルの提案。画像分野の応用も有望なんだろうか。
リポジトリはzifuwan/Sigma: Python implementation of Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation (github.com)

Segment Everything Everywhere All at Once

Segment Everything Everywhere All at Once [93.3]
SEEMは、全てを一度にイメージに分割するための、迅速でインタラクティブなモデルである。本論文では,SEEMについて述べる。SEEMは,任意の場所を一度に分割する,迅速かつインタラクティブなモデルである。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 17:59:40 GMT)
プロンプトに対応したセグメンテーションモデル、クリックなど言葉以外でのプロンプティングが可能
リポジトリはGitHub – UX-Decoder/Segment-Everything-Everywhere-All-At-Once: Official implementation of the paper “Segment Everything Everywhere All at Once”

Segment Anything

Segment Anything [108.2]
私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
論文参考訳（メタデータ） (Wed, 5 Apr 2023 17:59:46 GMT)
強力なセグメンテーションモデルの提案。ゼロショットでテキストに対応したセグメンテーションも可能。イメージエンコーダ、プロンプトエンコーダ、マスクデコーダから構成されTransformerベース。
プログラムサイトはSegment Anything | Meta AI (segment-anything.com)、データセットも公開されているSA-1B Dataset (facebook.com)。

LSeg: 言語駆動型のセマンティックセグメンテーション

Language-driven Semantic Segmentation [88.2]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文参考訳（メタデータ） (Mon, 10 Jan 2022 18:59:10 GMT)
- BackboneとなるVisionのモデル（ViT or ResNet）にCLIPを組み合わせることでゼロショットでの（ラベルを任意に設定可能な）セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
- リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation

MaskFormer: マスク予測を行うアプローチによるセグメンテーション

Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.3]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文参考訳（メタデータ） (Tue, 13 Jul 2021 17:59:50 GMT)
- セグメンテーションではピクセルを分類しグルーピングしていくアプローチと物体検出後にマスク領域を予測していくアプローチの2つがある。近年はピクセルベースのアプローチが良く用いられていたが、後者のアプローチを用いセマンティックセグメンテーション、パノプティックセグメンテーションで優れた性能を達成したとのこと。
- https://bowenc0221.github.io/maskformer/からコード等を確認可能。

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31