Nemotron-4 340B

NVIDIAからオープンなモデルNemotron-4 340Bが発表された。

NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models | NVIDIA Blog

NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.

とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容(nvidia-open-model-license-agreement-june-2024.pdf)で

• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.

とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。

If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.	

性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル(GPT-4oやGemini Proなど)を上回る。

fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。

Rewardモデルについては下記論文も参考になる。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です