コンテンツへスキップ
- Segment Anything [108.2]
私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。 このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。 多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
論文 参考訳(メタデータ) (Wed, 5 Apr 2023 17:59:46 GMT)
- 強力なセグメンテーションモデルの提案。ゼロショットでテキストに対応したセグメンテーションも可能。イメージエンコーダ、プロンプトエンコーダ、マスクデコーダから構成されTransformerベース。
- プログラムサイトはSegment Anything | Meta AI (segment-anything.com)、データセットも公開されているSA-1B Dataset (facebook.com)。
- Language-driven Semantic Segmentation [88.2]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。 テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。 エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (Mon, 10 Jan 2022 18:59:10 GMT)
- Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.3]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。 マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。 提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (Tue, 13 Jul 2021 17:59:50 GMT)- セグメンテーションではピクセルを分類しグルーピングしていくアプローチと物体検出後にマスク領域を予測していくアプローチの2つがある。近年はピクセルベースのアプローチが良く用いられていたが、後者のアプローチを用いセマンティックセグメンテーション、パノプティックセグメンテーションで優れた性能を達成したとのこと。
- https://bowenc0221.github.io/maskformer/からコード等を確認可能。
- A Survey on Deep Learning Technique for Video Segmentation [147.1]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。 ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (Fri, 2 Jul 2021 15:51:07 GMT)- Deep Learningを用いたビデオセグメンテーションに関するサーベイ。自動運転など応用範囲の広いタスクのサーベイで非常に有用。
- 引用数260と幅広い。アーキテクチャの変遷が興味深い。
- Large-scale Unsupervised Semantic Segmentation [163.4]
本稿では, 大規模教師無しセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。 ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文 参考訳(メタデータ) (Sun, 6 Jun 2021 15:02:11 GMT)- 教師無し前提のセマンティックセグメンテーションタスク。規模が大きく様々な場所で用いられそう。