日本語版Gemma 2 2B, Liquid Foundation Models (LFMs), Meta Movie Gen, CulturalBench

先週の発表で気になったのはGoogleによる日本語版 Gemma 2の公開（Google Developers Japan: 日本語版 Gemma 2 2B を公開 (googleblog.com)）とLiquid AIによるLiquid Foundation Models (LFMs)の発表（Liquid Foundation Models: Our First Series of Generative AI Models）、Metaによる動画生成AI、Meta Movie Genの発表（Meta Movie Gen）だった。

１つ目は言語特化モデルの可能性を感じる小規模・高性能モデルである。「東京科学大学情報理工学院情報工学系の岡崎直観教授らの研究チームと協力し、日本におけるオープンモデルの開発支援、および、新しい技術の開拓への取り組みも進めます。」との記載もあり、日本語という言語だけでなく文化理解のような部分にも注目。先週でていたCultualBenchのようなベンチマーク構築の動きもさかん。

２つ目はGPT系アーキテクチャではないLLMとのこと。論文やテクニカルレポートが出ていないので何とも言えない部分があるが、状態空間モデルではなくAttentionを効率化するアプローチのように見える。長文における処理が大幅に効率化されているとのことで期待大。

最後はMetaによるテキストからの動画生成AIで単純な生成だけでなく、編集も可能、元の静止画も指定可能。「On text-to-video generation, we outperform prior state-of-the-art, including commercial systems such as Runway Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) on overall video quality」と他モデルよりも良い性能であるとのこと。
（10/19追記） arXivに論文が出ていたので追加。

CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.8]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文参考訳（メタデータ） (Thu, 03 Oct 2024 17:04:31 GMT)
45か国をカバーする文化的ベンチマーク
リポジトリはCulturalBench – a Hugging Face Space by kellycyy

Movie Gen: A Cast of Media Foundation Models [133.4]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文参考訳（メタデータ） (Thu, 17 Oct 2024 16:22:46 GMT)

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル