GLM-4-9B, Qwen2

ZHIPU AI OPEN PLATFORM (bigmodel.cn)より、GLM4 9Bが、About Us | Qwen (qwenlm.github.io)よりQwen2が発表された。いずれもWeightが公開されている。「While Qwen2-72B as well as its instruction-tuned models still uses the original Qianwen License, all other models, including Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, and Qwen2-57B-A14B, turn to adopt Apache 2.0!」(Hello Qwen2 | Qwen (qwenlm.github.io))と、Qwen2の小型モデルはOSSである。

いつもの英語→日本語の機械翻訳性能で検証しているが、両モデルともに1 shotでBELUが30前後とかなり優秀である。中国の研究機関によるモデルは日本語性能が高いことが多く期待大。

Yuan 2.0-M32, Zamba, MAP-Neo

今週も興味深いLLMが発表されている。

  • MoEで小型強力なYuan 2.0-M32
  • SSM(&Transformerのハイブリッド)であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
  • 中国語-英語ではあるが強力なオープンモデルであるMAP-Neo
  • Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
    Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
    論文  参考訳(メタデータ)   (Tue, 28 May 2024 09:05:08 GMT)
  • MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
  • リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model
  • Zamba: A Compact 7B SSM Hybrid Model [11.0]
    Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
    論文  参考訳(メタデータ)   (Sun, 26 May 2024 22:23:02 GMT)
  • SSMとTransformerのハイブリッドで効率的だが強力なLLM
  • リポジトリはZyphra/Zamba-7B-v1 · Hugging Face
  • MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
    私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:57:16 GMT)
  • 強力かつオープンなLLM
  • プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)

Risks and Opportunities of Open-Source Generative AI 

  • Risks and Opportunities of Open-Source Generative AI [64.7]
    Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。 こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。 この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
    論文  参考訳(メタデータ)   (Tue, 14 May 2024 13:37:36 GMT)
  • 活発に開発されているオープンな生成AIについてリスクと意義をまとめた論文、全体としては「We argue that, overall, the benefits of open-source Gen AI outweigh its risks.」
  • やや長いがよく整理されている論文。

Phi-3 small/medium, Mistral 7B v0.3, Aya 23 8B/35B

先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。

MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。

別Blogで検証を行った(Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp))感じ日本語でもタスクによっては優れた性能を発揮できそう。

GPT-4o, Gemini Flash, Falcon-2

先週は大きな発表の多い週で、対応するモダリティが多く・性能が高く・推論速度が速く・安いGPT-4oの発表、扱えるコンテキスト長が長いGemini、非常に低価格で性能の良いGemini Flashの発表が大きなニュースだった。

Hello GPT-4o | OpenAI
Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra (blog.google)
Gemini Flash – Google DeepMind

全体的に正統な進化をしているとの印象ではあるが、OpenAIが圧倒的性能を持った時代が終わりつつあるのかなという印象がある(GPT-5の発表によって覆される可能性はあるが・・・)

気になっているのはコンテキスト キャッシュ ガイド  |  Google AI for Developers  |  Google for Developersの実装で、中身がSSM&状態を保存するようなものだと革新的(そうじゃないと思うけど)。そうでなくともRAGを終わらせる可能性のある機能として興味深い。

公開モデルとしてはFalcon 2が発表されたのも大きなニュースだった。多言語で選択肢が増えるのはありがたい。
Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 | Technology Innovation Institute (tii.ae)
tiiuae/falcon-11B · Hugging Face

DeepSeek v2, Llama 3 Youko 8B, AlphaFold 3

来週OpenAIから大きな発表があるとアナウンスされているが、今週もLLM関連の話題は多かった。注目はMoEなDeepSeek v2でありコンテキスト長、性能とも非常に期待できそう。日本語話者としてはLlama 3の日本語強化バージョンであるLlama 3 Youko 8Bにも注目である。
rinna、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を公開|rinna株式会社

そして、AlphaFold3の論文がNatureに発表されている。LLM関連ではないがモデルの意義や影響は大きい。最新アーキテクチャの適用など研究を続け、かつ、成果を出しているのがすごい。
Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model (blog.google)

  • DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [0.0]
    We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 15:56:43 GMT)
  • Activeなパラメータが20B程度でMixtral 8x22BやLlama 3 70Bと競合する性能を主張、ライセンスは独自だがかなり寛容的なものに見える。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-V2、Weightはdeepseek-ai/DeepSeek-V2 · Hugging Facedeepseek-ai/DeepSeek-V2-Chat · Hugging Face

Phi-3, Snowflake Arctic, SenseNova 5.0, OpenELM, Qwen-1.5 110B

先週もLLM関連のニュースが多かった。

Phi-3はMicrsoftによる小規模(?)LLM、3.8Bパラメータと比較的小さいが性能が高いと主張。

Snowflakeが発表したSnowflake Arcticは総パラメータ数480Bだが、推論時は17BパラメータのみアクティブになるMoE構成。面白い構成で性能はLlama3 70B相当を主張、Apache-2ライセンスと真にオープンソースなライセンスである点も素晴らしい。
Snowflake Arctic – エンタープライズAI向けLLM

SenseNovaはSenseTimeによるLLMでGPT 4 turbo超え(ただし最新モデルはない)を主張。クローズドなモデルではあるが性能競争が激しくなっていることを示している。
SenseTime launches SenseNova 5.0 with comprehensive updates and the industry-leading “Cloud-to-Edge” full-stack large model product matrix-Newsroom-SenseTime

AppleがLLMを公開したことも興味深い。

  • OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework [26.7]
    私たちは最先端のオープン言語モデルであるOpenELMをリリースします。 パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
    論文  参考訳(メタデータ)   (Mon, 22 Apr 2024 23:12:03 GMT)
  • リポジトリはapple/OpenELM · Hugging Face

その他、Qwen 1.5の大規模モデルであるQwen-1.5(Qwen/Qwen1.5-110B · Hugging Face)が公開、Nyonic Wonton7Bが発表などLLM界隈は非常に活況である。

https://huggingface.co/datasets/HuggingFaceFW/fineweb に関連したX(旧twitter)での投稿も話題になっていた。XユーザーのThomas Wolfさん: 「This take on the FineWeb release is one of the most interesting feedback and also a reason FineWeb is very different from even larger datasets like RedPajama-V2 (which is double its size!) Surprisingly, the size of the dataset of 15T tokens is not very important, what is much…」 / X (twitter.com) 「Before I dive more in this let me give you an example of unintuitive behavior. Between 2022 and 2023 the “LLM quality” of Common Crawl dropped significantly as in “training a LLM on the crawls btw 2022-2023 will give you lower performances on a set of evals”. What happened? Well it turns out the Common Crawl team has been filtering more strongly domains with adult content. Not really the cause you’d be intuitively thinking about, right?」は非常に興味深い。

Llama 3, Mixtral 8x22B, Reka Core, WizardLM2

今年のHAI AI Index reportでも取り上げられていた通り基盤モデルの構築が盛んになっている。 AI Index Report 2024 – Artificial Intelligence Index (stanford.edu)

先週もLLM関連のニュースが多く、寛容な独自ライセンスのLlama 3、Apache-2ライセンスのMixtral 8x22Bとオープンなモデルの盛り上がりも衰えていない。設立間もないRekaによるReka Coreにも注目である。モデル性能も非常に高い。

WizardLM2も公開されたようだが、一時的になのかリポジトリにアクセスできなくなっている。@WizardLM on Hugging Face: “🔥🔥🔥 Introducing WizardLM-2! 📙Release Blog:…”、こちらも性能的に期待大

  • Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models [69.4]
    Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。 Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れています。 最も有能で最大のモデルであるReka Coreは、自動評価とブライド評価の両方において、最高のフロンティアモデルにアプローチしています。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 17:59:48 GMT)
  • Reka Core: Reka Core: Our Frontier Class Multimodal Language Model — Reka AI、マルチモーダルでGPT-4Vと競合。

Eagle, Finch, RecurrentGemma

Transformerアーキテクチャに代わりうるモデルに関する報告が出ていた。Eagle, FinchはRWKVプロジェクト(DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)など)の研究成果で非常にまとまった論文、RecurentGemmaは1 bit(1.58 bit)なLLMとHAWK・Griffin – arXiv最新論文の紹介 (devneko.jp)のGriffinを取り入れたオープンなモデルである。新たなアーキテクチャに期待したい。

  • Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [37.0]
    本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。 アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。 我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
    論文  参考訳(メタデータ)   (Wed, 10 Apr 2024 19:34:38 GMT)
  • RWKVの最新バージョンの論文、ベンチマーク結果を見る限りtransformerベースの最新アーキテクチャと比べても良い勝負になってきている。学習時の計算コストと性能ではMambaよりもコストパフォーマンスがよさそう。
  • プロジェクトサイトはRWKV (RWKV) (huggingface.co)

Cohere Command R+, AURORA-M, HyperCLOVA X, EURUS

先週もLLM関連の話題が多かった。Cohere Command R+はGPT-4相当をうたう104BのLLMであり、huggingfaceでCC-BY-NCで公開されている。完全に商用クオリティのモデルが非商用利用のみとはいえ公開されたのは衝撃的だった。研究コミュニティに対する大きな貢献だと思う。

Aurora-MはStarCoderPlusから継続学習によって作られたオープンなLLM、HyperCLOVA XはNAVERによる韓国語に強いLLMである。EURUSなどオープンなLLMを強化しようというトライも多い。

Introducing Command R+: A ScalableLLM Built for Business
Command R+は、エンタープライズグレードのワークロードに取り組むために設計された最先端のRAG最適化モデルである。最初はmicrosoft azureで利用可能だ。
Introducing Command R+: A Scalable LLM Built for Business (cohere.com)
Mistral Large以上、GPT-4-Turbo相当を主張するLLM、商用利用不可の条件ではあるが研究用に使用可能なモデルが公開されているのがすごい
リポジトリはCohereForAI/c4ai-command-r-plus · Hugging Face

  • Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order [123.7]
    Aurora-Mは、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、コードで訓練された15Bパラメータの多言語オープンソースモデルである。 これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。 様々なタスクや言語で厳格に評価されており、破滅的な忘れ物に対する頑丈さを示している。
    論文  参考訳(メタデータ)   (Sat, 30 Mar 2024 15:38:54 GMT)
  • 15Bのオープンな多言語LLM、性能はLlama2 13Bと競合という感じではあるが安全性に非常に気を使ったモデルになっている。
  • プロジェクトサイトはAurora-M models – a aurora-m Collection (huggingface.co)
  • HyperCLOVA X Technical Report [119.1]
    韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。 HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。 このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
    論文  参考訳(メタデータ)   (Tue, 02 Apr 2024 13:48:49 GMT)
  • NAVERによるLLM,韓国語能力が高いが、英語でもLlama2 70Bと競っており能力が高い。パラメータ数は非公表?
  • Advancing LLM Reasoning Generalists with Preference Trees [119.6]
    推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
    論文  参考訳(メタデータ)   (Tue, 02 Apr 2024 16:25:30 GMT)
  • Mistral-7B, CodeLlama-70BからSFTされたモデル、UltraInteractというデータセットがコア。「EURUS-70B beats GPT-3.5 Turbo in reasoning through a comprehensive benchmarking across 12 tests covering five tasks」はすごい
  • OpenBMB/Eurus (github.com)