先週も生成(だけではないが)AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃(Segment Anything – arXiv最新論文の紹介 (devneko.jp))から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場(Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com))した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。
これらモデルの多く(FLUX.1は一部)が公開されているのが非常に興味深い。
- SAM 2: Segment Anything in Images and Videos
segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。 - 動画のセグメンテーションがSAM的に可能になったSAM2。
- 公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2
Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face
FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。