CALM3-22B-Chat、InternLM-XComposer-2.5、YuLan

高い性能が話題となったCALM3 22B(論文などはまだ?)、GPT-4Vレベルを主張するInternLM2.5、中国語の性能が高い公開モデルYuLanなどオープンソースの取り組みも引き続き盛り上がっている。

  • YuLan: An Open-source Large Language Model [179.6]
    本稿では,12億ドルのパラメータを持つオープンソースの大規模言語モデル (LLM) であるYuLanの開発について述べる。 YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。 これらの段階にまたがってカリキュラム学習フレームワークを考案し,LLMが知識を習得し易い方法で学習することを支援する。
    論文  参考訳(メタデータ)   (Fri, 28 Jun 2024 11:52:53 GMT)
  • リポジトリはGitHub – RUC-GSAI/YuLan-Chat: YuLan: An Open-Source Large Language Model

Gemma2, CriticGPT

Googleから公開モデルとしては規模の大きいLLM Gemma2がリリースされた。9Bと27Bの公開。Llama3など競合する公開モデルを超える性能とのこと。テクニカルレポート(gemma-2-report.pdf (storage.googleapis.com))には「The 9 billion and 27 billion parameter models are available today, with a 2 billion parameter model to be released shortly.」とある。「We also train the 2B and 9B models with knowledge distillation (Hinton et al , 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3× bigger.」と蒸留を効果的に使っているもの面白い。5. Ablationsをみるに効果は大きそう

いつもの翻訳ベンチマークでは非常に高い性能を示した。期待大である。Gemma 2 9Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)

OpenAIからはGPT-4の間違いを見つけ修正提案するCriticGPTが出ている。今はコードの修正が対象。限界もあるようだがこのような研究は重要。Finding GPT-4’s mistakes with GPT-4 | OpenAI

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

  • ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools [119.3]
    本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 GLM-4モデルは、主に中国語と英語で10兆のトークンと、24言語からの小さなコーパスで事前訓練されている。 高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。
    論文  参考訳(メタデータ)   (Tue, 18 Jun 2024 16:58:21 GMT)
  • GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)」にも関連する論文、最近は論文公開前にWEBで情報が出ることが多い気がする。基礎能力として「1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval,2) gets close to GPT-4-Turbo in instruction following as measured by IFEval,3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and4) outperforms GPT-4 in Chinese alignments as measured by AlignBench.」と強力であり、「Built on the GLM-4’s all-tools capabilities, we also developed the GLMs application platform that allows users to create and customize their own agents for specific tasks.」とエージェント的動作のプラットフォームも存在するよう。
  • リポジトリはTHUDM · GitHub サイトは智谱清言 (chatglm.cn)

Nemotron-4 340B

NVIDIAからオープンなモデルNemotron-4 340Bが発表された。

NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models | NVIDIA Blog

NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.

とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容(nvidia-open-model-license-agreement-june-2024.pdf)で

• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.

とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。

If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.	

性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル(GPT-4oやGemini Proなど)を上回る。

fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。

Rewardモデルについては下記論文も参考になる。

GLM-4-9B, Qwen2

ZHIPU AI OPEN PLATFORM (bigmodel.cn)より、GLM4 9Bが、About Us | Qwen (qwenlm.github.io)よりQwen2が発表された。いずれもWeightが公開されている。「While Qwen2-72B as well as its instruction-tuned models still uses the original Qianwen License, all other models, including Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, and Qwen2-57B-A14B, turn to adopt Apache 2.0!」(Hello Qwen2 | Qwen (qwenlm.github.io))と、Qwen2の小型モデルはOSSである。

いつもの英語→日本語の機械翻訳性能で検証しているが、両モデルともに1 shotでBELUが30前後とかなり優秀である。中国の研究機関によるモデルは日本語性能が高いことが多く期待大。

Yuan 2.0-M32, Zamba, MAP-Neo

今週も興味深いLLMが発表されている。

  • MoEで小型強力なYuan 2.0-M32
  • SSM(&Transformerのハイブリッド)であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
  • 中国語-英語ではあるが強力なオープンモデルであるMAP-Neo
  • Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
    Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
    論文  参考訳(メタデータ)   (Tue, 28 May 2024 09:05:08 GMT)
  • MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
  • リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model
  • Zamba: A Compact 7B SSM Hybrid Model [11.0]
    Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
    論文  参考訳(メタデータ)   (Sun, 26 May 2024 22:23:02 GMT)
  • SSMとTransformerのハイブリッドで効率的だが強力なLLM
  • リポジトリはZyphra/Zamba-7B-v1 · Hugging Face
  • MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
    私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:57:16 GMT)
  • 強力かつオープンなLLM
  • プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)

Risks and Opportunities of Open-Source Generative AI 

  • Risks and Opportunities of Open-Source Generative AI [64.7]
    Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。 こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。 この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
    論文  参考訳(メタデータ)   (Tue, 14 May 2024 13:37:36 GMT)
  • 活発に開発されているオープンな生成AIについてリスクと意義をまとめた論文、全体としては「We argue that, overall, the benefits of open-source Gen AI outweigh its risks.」
  • やや長いがよく整理されている論文。

Phi-3 small/medium, Mistral 7B v0.3, Aya 23 8B/35B

先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。

MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。

別Blogで検証を行った(Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp))感じ日本語でもタスクによっては優れた性能を発揮できそう。

GPT-4o, Gemini Flash, Falcon-2

先週は大きな発表の多い週で、対応するモダリティが多く・性能が高く・推論速度が速く・安いGPT-4oの発表、扱えるコンテキスト長が長いGemini、非常に低価格で性能の良いGemini Flashの発表が大きなニュースだった。

Hello GPT-4o | OpenAI
Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra (blog.google)
Gemini Flash – Google DeepMind

全体的に正統な進化をしているとの印象ではあるが、OpenAIが圧倒的性能を持った時代が終わりつつあるのかなという印象がある(GPT-5の発表によって覆される可能性はあるが・・・)

気になっているのはコンテキスト キャッシュ ガイド  |  Google AI for Developers  |  Google for Developersの実装で、中身がSSM&状態を保存するようなものだと革新的(そうじゃないと思うけど)。そうでなくともRAGを終わらせる可能性のある機能として興味深い。

公開モデルとしてはFalcon 2が発表されたのも大きなニュースだった。多言語で選択肢が増えるのはありがたい。
Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 | Technology Innovation Institute (tii.ae)
tiiuae/falcon-11B · Hugging Face

DeepSeek v2, Llama 3 Youko 8B, AlphaFold 3

来週OpenAIから大きな発表があるとアナウンスされているが、今週もLLM関連の話題は多かった。注目はMoEなDeepSeek v2でありコンテキスト長、性能とも非常に期待できそう。日本語話者としてはLlama 3の日本語強化バージョンであるLlama 3 Youko 8Bにも注目である。
rinna、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を公開|rinna株式会社

そして、AlphaFold3の論文がNatureに発表されている。LLM関連ではないがモデルの意義や影響は大きい。最新アーキテクチャの適用など研究を続け、かつ、成果を出しているのがすごい。
Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model (blog.google)

  • DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [0.0]
    We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 15:56:43 GMT)
  • Activeなパラメータが20B程度でMixtral 8x22BやLlama 3 70Bと競合する性能を主張、ライセンスは独自だがかなり寛容的なものに見える。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-V2、Weightはdeepseek-ai/DeepSeek-V2 · Hugging Facedeepseek-ai/DeepSeek-V2-Chat · Hugging Face