DBRX, Jamba, Grok-1.5, RWKV Finch

先週もLLM界隈の話題が多かった。注目はDatabricks(&元MosaicML)によるDBRXで公開モデルとしては非常に高性能(ライセンスは独自)。「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして | Databricks Blog

JambaはMamba MoE + transformerでSSMハイブリッドとして商用レベルをうたうモデル。ベースモデルはApache-2ライセンス。Introducing Jamba: AI21’s Groundbreaking SSM-Transformer Model

transformer以外の選択肢だとRWKV-6 Finch(RWKV-x060-World-1B6-v2.1-20240328-ctx4096)がhugging faceで試用可能となっている。長文翻訳はまだまだという感じだがfine tuning等やってみたいところ
RWKV-Gradio-1 – a Hugging Face Space by BlinkDL

Grok-1.5(および2)のアナウンスもありこちらも要注目。
Announcing Grok-1.5 (x.ai)
XユーザーのElon Muskさん: 「Should be available on 𝕏 next week. Grok 2 should exceed current AI on all metrics. In training now.」 / X (twitter.com)

GPT-4やGemini、ClaudeなどAPIベースの選択肢以外が広がることを期待したい。

InternLM2

  • InternLM2 Technical Report [159.7]
    本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。 InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。 InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 00:53:24 GMT)
  • InternLM2のテクニカルレポート。詳細な情報が載っておりとても興味深い。Chatの性能は高い。学術研究用であれば自由に利用できるものではあるがウェイトは独自ライセンス。
  • リポジトリはInternLM/InternLM: Official release of InternLM2 7B and 20B base and chat models. 200K context support (github.com)

GrokとGemini 1.5とGemma

X(旧Twitter)で事前アナウンス「XユーザーのElon Muskさん: 「This week, @xAI will open source Grok」 / X (twitter.com)」の通り(?)Grokが公開された。314BのMoE構成とのことでfine tuning未済のベースモデルのみの公開。

Open Release of Grok-1 (x.ai)
xai-org/grok: Grok open release (github.com)

Model Details
・Base model trained on a large amount of text data, not fine-tuned for any particular task.
・314B parameter Mixture-of-Experts model with 25% of the weights active on a given token.
・Trained from scratch by xAI using a custom training stack on top of JAX and Rust in October 2023.

Open Release of Grok-1 (x.ai)

「The code and associated Grok-1 weights in this release are licensed under the Apache 2.0 license. The license only applies to the source files in this repository and the model weights of Grok-1.」とのことで、コード・モデル(torrentでの公開のよう)ともにApache-2ライセンスでの公開。完全なOSSであり大きな意味がありそう。

先週、arXivにGemini 1.5とGemmaの論文が公開されていた。Calude 3を含め、GPT-4一強ではない時代になりつつあるし、オープンな流れも加速してほしいところ。Mistralの動きが気になる。

  • Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context [379.4]
    Gemini 1.5 Pro は計算効率の良いマルチモーダル・ミックス・オブ・エキスパート・モデルである。 モダリティ間の長文検索タスクにおいて、ほぼ完璧なリコールを実現する。 Gemini 1.0 Ultraの最先端のパフォーマンスは、幅広いベンチマークで一致または上回っている。
    論文  参考訳(メタデータ)   (Fri, 8 Mar 2024 18:54:20 GMT)
  • SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)と同じ内容

Claude 3とYi

今週もLLM関連の話題が多く、AnthropicからGPT-4を超える性能というClaude 3が発表されてた。また、中国のスタートアップ01.AIによるYiは公開されているモデルの中では非常に高性能に思える(ライセンスは独自で商用利用時には登録が必要などCCなど一般的なものとは異なり、よく読む必要がある。)

Introducing the next generation of Claude \ Anthropic

Model_Card_Claude_3.pdf (anthropic.com)
The Claude 3 Model Family: Opus, Sonnet, Haiku
Claude 3ファミリーはベンチマーク評価全体で強力なパフォーマンスを示し、推論、数学、コーディングの尺度に新しい標準を設定する。Claude 3 Opus は GPQA [1], MMLU [2], MMMU [3] などの評価で最先端の結果を得る。Claude 3 HaikuはClaude 2よりも多くの純粋なテキストタスクで優れており、SonnetとOpusはそれを著しく上回っている。

  • Yi: Open Foundation Models by 01.AI [42.9]
    Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。 私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
    論文  参考訳(メタデータ)   (Thu, 7 Mar 2024 16:52:49 GMT)
  • タスクによってかなり性能は違うが、英語で同サイズのLlamaを上回り、34Bだと英語でGPT-3.5、中国語でGPT-4に匹敵するようなモデルの提案。Weightが公開されているのがすごい。日本語でも相応の性能に思える。
  • リポジトリは01-ai/Yi: A series of large language models trained from scratch by developers @01-ai (github.com)、モデルは01-ai (01-ai) (huggingface.co)

GemmaとMistral next

先週もLLM界隈は盛り上がっていた。注目すべきはGoogleのオープンなモデルであるGemmaとMistralがステルスでリリースしたというMistral nextの話題。両方とも日本語を扱えそうで興味深々である。そろそろ翻訳ベンチマークを再開しようと思わなくもない。

Gemma: Google introduces new state-of-the-art open models (blog.google)
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。Gemmaモデルは、言語理解、推論、安全のための学術ベンチマーク全体で強力なパフォーマンスを示す。

mistral-next: First Impressions of Mistral’s Latest Stealth Release | by Ingrid Stevens | Feb, 2024 | Medium
Chat with Open Large Language Models (lmsys.org)のDirect chatからmistral-nextを使用可能。
Mediumの記事によると数学が得意とのこと。試した感じ日本語応答も可能そう。

AYA datasetとAYA model

多言語LLMを構築するための取り組み。AYAはトウィ語でシダのことらしい。プロジェクトサイトはAya | Cohere For AI

  • Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.8]
    既存のデータセットはほとんどが英語で書かれている。 私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。 既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
    論文  参考訳(メタデータ)   (Fri, 9 Feb 2024 18:51:49 GMT)
  • リポジトリはCohereForAI/aya_collection · Datasets at Hugging Face
  • Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model [33.9]
    Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。 99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。 我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 17:34:13 GMT)
  • リポジトリはCohereForAI/aya-101 · Hugging Face

DolmaとOLMo

オープンなコーパスとそれを用いたLLMの提案。コーパスは3T tokensと極めて大きい(CommonCrawlがデータの多くを占めている)。それ用いてApache-2のLLMがリリースされている。

OLMo-7Bのベンチマーク結果はLlama-2 7Bを超えており非常に高い。OSSライセンスで公開されているのは凄く、トレーニングデータが公開されているのが特徴的。

データ・モデル・コードのリポジトリはallenai/dolma · Datasets at Hugging Faceallenai/OLMo-7B · Hugging Faceallenai/OLMo: Modeling, training, eval, and inference code for OLMo (github.com)

  • Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [140.6]
    われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。 本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。 Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 20:29:50 GMT)
  • OLMo: Accelerating the Science of Language Models [166.1]
    言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。 我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。 このテクニカルレポートは、最先端の真にオープンな言語モデルであるOLMoの最初のリリースを詳述している。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 18:28:55 GMT)

H2O-Danube-1.8B Technical Report

Orion-14B: Open-source Multilingual Large Language Models

Mixtral of Experts 

  • Mixtral of Experts [57.4]
    Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。 Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。 また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B – Instructという命令に従うように微調整されたモデルも提供する。
    論文  参考訳(メタデータ)   (Mon, 8 Jan 2024 18:47:34 GMT)
  • 高性能で話題になったMixtralの論文。「Surprisingly, we do not observe obvious patterns in the assignment of experts based on the topic.」は驚き
  • Mixtral of experts | Mistral AI | Open-weight models