日本語版Gemma 2 2B, Liquid Foundation Models (LFMs), Meta Movie Gen, CulturalBench

先週の発表で気になったのはGoogleによる日本語版 Gemma 2の公開(Google Developers Japan: 日本語版 Gemma 2 2B を公開 (googleblog.com))とLiquid AIによるLiquid Foundation Models (LFMs)の発表(Liquid Foundation Models: Our First Series of Generative AI Models)、Metaによる動画生成AI、Meta Movie Genの発表(Meta Movie Gen)だった。

1つ目は言語特化モデルの可能性を感じる小規模・高性能モデルである。「東京科学大学 情報理工学院 情報工学系の岡崎直観教授らの研究チームと協力し、日本におけるオープンモデルの開発支援、および、新しい技術の開拓への取り組みも進めます。」との記載もあり、日本語という言語だけでなく文化理解のような部分にも注目。先週でていたCultualBenchのようなベンチマーク構築の動きもさかん。

2つ目はGPT系アーキテクチャではないLLMとのこと。論文やテクニカルレポートが出ていないので何とも言えない部分があるが、状態空間モデルではなくAttentionを効率化するアプローチのように見える。長文における処理が大幅に効率化されているとのことで期待大。

最後はMetaによるテキストからの動画生成AIで単純な生成だけでなく、編集も可能、元の静止画も指定可能。「On text-to-video generation, we outperform prior state-of-the-art, including commercial systems such as Runway Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) on overall video quality」と他モデルよりも良い性能であるとのこと。
(10/19追記) arXivに論文が出ていたので追加。

  • CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.8]
    文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。 同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。 人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 17:04:31 GMT)
  • 45か国をカバーする文化的ベンチマーク
  • リポジトリはCulturalBench – a Hugging Face Space by kellycyy
  • Movie Gen: A Cast of Media Foundation Models [133.4]
    高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。 ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 16:22:46 GMT)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です