Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux

先週も生成（だけではないが）AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃（Segment Anything – arXiv最新論文の紹介 (devneko.jp)）から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場（Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com)）した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。

これらモデルの多く（FLUX.1は一部）が公開されているのが非常に興味深い。

SAM 2: Segment Anything in Images and Videos
segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。
動画のセグメンテーションがSAM的に可能になったSAM2。
公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2

FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。

コメントを残す

コメントを残す コメントをキャンセル