Phi-3, Snowflake Arctic, SenseNova 5.0, OpenELM, Qwen-1.5 110B

先週もLLM関連のニュースが多かった。

Phi-3はMicrsoftによる小規模(?)LLM、3.8Bパラメータと比較的小さいが性能が高いと主張。

Snowflakeが発表したSnowflake Arcticは総パラメータ数480Bだが、推論時は17BパラメータのみアクティブになるMoE構成。面白い構成で性能はLlama3 70B相当を主張、Apache-2ライセンスと真にオープンソースなライセンスである点も素晴らしい。
Snowflake Arctic – エンタープライズAI向けLLM

SenseNovaはSenseTimeによるLLMでGPT 4 turbo超え(ただし最新モデルはない)を主張。クローズドなモデルではあるが性能競争が激しくなっていることを示している。
SenseTime launches SenseNova 5.0 with comprehensive updates and the industry-leading “Cloud-to-Edge” full-stack large model product matrix-Newsroom-SenseTime

AppleがLLMを公開したことも興味深い。

  • OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework [26.7]
    私たちは最先端のオープン言語モデルであるOpenELMをリリースします。 パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
    論文  参考訳(メタデータ)   (Mon, 22 Apr 2024 23:12:03 GMT)
  • リポジトリはapple/OpenELM · Hugging Face

その他、Qwen 1.5の大規模モデルであるQwen-1.5(Qwen/Qwen1.5-110B · Hugging Face)が公開、Nyonic Wonton7Bが発表などLLM界隈は非常に活況である。

https://huggingface.co/datasets/HuggingFaceFW/fineweb に関連したX(旧twitter)での投稿も話題になっていた。XユーザーのThomas Wolfさん: 「This take on the FineWeb release is one of the most interesting feedback and also a reason FineWeb is very different from even larger datasets like RedPajama-V2 (which is double its size!) Surprisingly, the size of the dataset of 15T tokens is not very important, what is much…」 / X (twitter.com) 「Before I dive more in this let me give you an example of unintuitive behavior. Between 2022 and 2023 the “LLM quality” of Common Crawl dropped significantly as in “training a LLM on the crawls btw 2022-2023 will give you lower performances on a set of evals”. What happened? Well it turns out the Common Crawl team has been filtering more strongly domains with adult content. Not really the cause you’d be intuitively thinking about, right?」は非常に興味深い。

Llama 3, Mixtral 8x22B, Reka Core, WizardLM2

今年のHAI AI Index reportでも取り上げられていた通り基盤モデルの構築が盛んになっている。 AI Index Report 2024 – Artificial Intelligence Index (stanford.edu)

先週もLLM関連のニュースが多く、寛容な独自ライセンスのLlama 3、Apache-2ライセンスのMixtral 8x22Bとオープンなモデルの盛り上がりも衰えていない。設立間もないRekaによるReka Coreにも注目である。モデル性能も非常に高い。

WizardLM2も公開されたようだが、一時的になのかリポジトリにアクセスできなくなっている。@WizardLM on Hugging Face: “🔥🔥🔥 Introducing WizardLM-2! 📙Release Blog:…”、こちらも性能的に期待大

  • Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models [69.4]
    Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。 Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れています。 最も有能で最大のモデルであるReka Coreは、自動評価とブライド評価の両方において、最高のフロンティアモデルにアプローチしています。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 17:59:48 GMT)
  • Reka Core: Reka Core: Our Frontier Class Multimodal Language Model — Reka AI、マルチモーダルでGPT-4Vと競合。

Eagle, Finch, RecurrentGemma

Transformerアーキテクチャに代わりうるモデルに関する報告が出ていた。Eagle, FinchはRWKVプロジェクト(DBRX, Jamba, Grok-1.5, RWKV Finch – arXiv最新論文の紹介 (devneko.jp)など)の研究成果で非常にまとまった論文、RecurentGemmaは1 bit(1.58 bit)なLLMとHAWK・Griffin – arXiv最新論文の紹介 (devneko.jp)のGriffinを取り入れたオープンなモデルである。新たなアーキテクチャに期待したい。

  • Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [37.0]
    本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。 アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。 我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
    論文  参考訳(メタデータ)   (Wed, 10 Apr 2024 19:34:38 GMT)
  • RWKVの最新バージョンの論文、ベンチマーク結果を見る限りtransformerベースの最新アーキテクチャと比べても良い勝負になってきている。学習時の計算コストと性能ではMambaよりもコストパフォーマンスがよさそう。
  • プロジェクトサイトはRWKV (RWKV) (huggingface.co)

Cohere Command R+, AURORA-M, HyperCLOVA X, EURUS

先週もLLM関連の話題が多かった。Cohere Command R+はGPT-4相当をうたう104BのLLMであり、huggingfaceでCC-BY-NCで公開されている。完全に商用クオリティのモデルが非商用利用のみとはいえ公開されたのは衝撃的だった。研究コミュニティに対する大きな貢献だと思う。

Aurora-MはStarCoderPlusから継続学習によって作られたオープンなLLM、HyperCLOVA XはNAVERによる韓国語に強いLLMである。EURUSなどオープンなLLMを強化しようというトライも多い。

Introducing Command R+: A ScalableLLM Built for Business
Command R+は、エンタープライズグレードのワークロードに取り組むために設計された最先端のRAG最適化モデルである。最初はmicrosoft azureで利用可能だ。
Introducing Command R+: A Scalable LLM Built for Business (cohere.com)
Mistral Large以上、GPT-4-Turbo相当を主張するLLM、商用利用不可の条件ではあるが研究用に使用可能なモデルが公開されているのがすごい
リポジトリはCohereForAI/c4ai-command-r-plus · Hugging Face

  • Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order [123.7]
    Aurora-Mは、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、コードで訓練された15Bパラメータの多言語オープンソースモデルである。 これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。 様々なタスクや言語で厳格に評価されており、破滅的な忘れ物に対する頑丈さを示している。
    論文  参考訳(メタデータ)   (Sat, 30 Mar 2024 15:38:54 GMT)
  • 15Bのオープンな多言語LLM、性能はLlama2 13Bと競合という感じではあるが安全性に非常に気を使ったモデルになっている。
  • プロジェクトサイトはAurora-M models – a aurora-m Collection (huggingface.co)
  • HyperCLOVA X Technical Report [119.1]
    韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。 HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。 このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
    論文  参考訳(メタデータ)   (Tue, 02 Apr 2024 13:48:49 GMT)
  • NAVERによるLLM,韓国語能力が高いが、英語でもLlama2 70Bと競っており能力が高い。パラメータ数は非公表?
  • Advancing LLM Reasoning Generalists with Preference Trees [119.6]
    推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
    論文  参考訳(メタデータ)   (Tue, 02 Apr 2024 16:25:30 GMT)
  • Mistral-7B, CodeLlama-70BからSFTされたモデル、UltraInteractというデータセットがコア。「EURUS-70B beats GPT-3.5 Turbo in reasoning through a comprehensive benchmarking across 12 tests covering five tasks」はすごい
  • OpenBMB/Eurus (github.com)

DBRX, Jamba, Grok-1.5, RWKV Finch

先週もLLM界隈の話題が多かった。注目はDatabricks(&元MosaicML)によるDBRXで公開モデルとしては非常に高性能(ライセンスは独自)。「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして | Databricks Blog

JambaはMamba MoE + transformerでSSMハイブリッドとして商用レベルをうたうモデル。ベースモデルはApache-2ライセンス。Introducing Jamba: AI21’s Groundbreaking SSM-Transformer Model

transformer以外の選択肢だとRWKV-6 Finch(RWKV-x060-World-1B6-v2.1-20240328-ctx4096)がhugging faceで試用可能となっている。長文翻訳はまだまだという感じだがfine tuning等やってみたいところ
RWKV-Gradio-1 – a Hugging Face Space by BlinkDL

Grok-1.5(および2)のアナウンスもありこちらも要注目。
Announcing Grok-1.5 (x.ai)
XユーザーのElon Muskさん: 「Should be available on 𝕏 next week. Grok 2 should exceed current AI on all metrics. In training now.」 / X (twitter.com)

GPT-4やGemini、ClaudeなどAPIベースの選択肢以外が広がることを期待したい。

InternLM2

  • InternLM2 Technical Report [159.7]
    本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。 InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。 InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 00:53:24 GMT)
  • InternLM2のテクニカルレポート。詳細な情報が載っておりとても興味深い。Chatの性能は高い。学術研究用であれば自由に利用できるものではあるがウェイトは独自ライセンス。
  • リポジトリはInternLM/InternLM: Official release of InternLM2 7B and 20B base and chat models. 200K context support (github.com)

GrokとGemini 1.5とGemma

X(旧Twitter)で事前アナウンス「XユーザーのElon Muskさん: 「This week, @xAI will open source Grok」 / X (twitter.com)」の通り(?)Grokが公開された。314BのMoE構成とのことでfine tuning未済のベースモデルのみの公開。

Open Release of Grok-1 (x.ai)
xai-org/grok: Grok open release (github.com)

Model Details
・Base model trained on a large amount of text data, not fine-tuned for any particular task.
・314B parameter Mixture-of-Experts model with 25% of the weights active on a given token.
・Trained from scratch by xAI using a custom training stack on top of JAX and Rust in October 2023.

Open Release of Grok-1 (x.ai)

「The code and associated Grok-1 weights in this release are licensed under the Apache 2.0 license. The license only applies to the source files in this repository and the model weights of Grok-1.」とのことで、コード・モデル(torrentでの公開のよう)ともにApache-2ライセンスでの公開。完全なOSSであり大きな意味がありそう。

先週、arXivにGemini 1.5とGemmaの論文が公開されていた。Calude 3を含め、GPT-4一強ではない時代になりつつあるし、オープンな流れも加速してほしいところ。Mistralの動きが気になる。

  • Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context [379.4]
    Gemini 1.5 Pro は計算効率の良いマルチモーダル・ミックス・オブ・エキスパート・モデルである。 モダリティ間の長文検索タスクにおいて、ほぼ完璧なリコールを実現する。 Gemini 1.0 Ultraの最先端のパフォーマンスは、幅広いベンチマークで一致または上回っている。
    論文  参考訳(メタデータ)   (Fri, 8 Mar 2024 18:54:20 GMT)
  • SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)と同じ内容

Claude 3とYi

今週もLLM関連の話題が多く、AnthropicからGPT-4を超える性能というClaude 3が発表されてた。また、中国のスタートアップ01.AIによるYiは公開されているモデルの中では非常に高性能に思える(ライセンスは独自で商用利用時には登録が必要などCCなど一般的なものとは異なり、よく読む必要がある。)

Introducing the next generation of Claude \ Anthropic

Model_Card_Claude_3.pdf (anthropic.com)
The Claude 3 Model Family: Opus, Sonnet, Haiku
Claude 3ファミリーはベンチマーク評価全体で強力なパフォーマンスを示し、推論、数学、コーディングの尺度に新しい標準を設定する。Claude 3 Opus は GPQA [1], MMLU [2], MMMU [3] などの評価で最先端の結果を得る。Claude 3 HaikuはClaude 2よりも多くの純粋なテキストタスクで優れており、SonnetとOpusはそれを著しく上回っている。

  • Yi: Open Foundation Models by 01.AI [42.9]
    Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。 私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 16:52:49 GMT)
  • タスクによってかなり性能は違うが、英語で同サイズのLlamaを上回り、34Bだと英語でGPT-3.5、中国語でGPT-4に匹敵するようなモデルの提案。Weightが公開されているのがすごい。日本語でも相応の性能に思える。
  • リポジトリは01-ai/Yi: A series of large language models trained from scratch by developers @01-ai (github.com)、モデルは01-ai (01-ai) (huggingface.co)

GemmaとMistral next

先週もLLM界隈は盛り上がっていた。注目すべきはGoogleのオープンなモデルであるGemmaとMistralがステルスでリリースしたというMistral nextの話題。両方とも日本語を扱えそうで興味深々である。そろそろ翻訳ベンチマークを再開しようと思わなくもない。

Gemma: Google introduces new state-of-the-art open models (blog.google)
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。Gemmaモデルは、言語理解、推論、安全のための学術ベンチマーク全体で強力なパフォーマンスを示す。

mistral-next: First Impressions of Mistral’s Latest Stealth Release | by Ingrid Stevens | Feb, 2024 | Medium
Chat with Open Large Language Models (lmsys.org)のDirect chatからmistral-nextを使用可能。
Mediumの記事によると数学が得意とのこと。試した感じ日本語応答も可能そう。

AYA datasetとAYA model

多言語LLMを構築するための取り組み。AYAはトウィ語でシダのことらしい。プロジェクトサイトはAya | Cohere For AI

  • Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.8]
    既存のデータセットはほとんどが英語で書かれている。 私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。 既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
    論文  参考訳(メタデータ)   (Fri, 9 Feb 2024 18:51:49 GMT)
  • リポジトリはCohereForAI/aya_collection · Datasets at Hugging Face
  • Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model [33.9]
    Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。 99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。 我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 17:34:13 GMT)
  • リポジトリはCohereForAI/aya-101 · Hugging Face