Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux

先週も生成(だけではないが)AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃(Segment Anything – arXiv最新論文の紹介 (devneko.jp))から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場(Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com))した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。

これらモデルの多く(FLUX.1は一部)が公開されているのが非常に興味深い。

  • SAM 2: Segment Anything in Images and Videos
    segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。
  • 動画のセグメンテーションがSAM的に可能になったSAM2。
  • 公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2

Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face

FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。

Apple Intelligence Foundation Language Models

Preliminary WMT24 Ranking of General MT Systems and LLMs