NVIDIAからオープンなモデルNemotron-4 340Bが発表された。
NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.
とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容(nvidia-open-model-license-agreement-june-2024.pdf)で
• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.
とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。
If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.
性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル(GPT-4oやGemini Proなど)を上回る。
fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。
Rewardモデルについては下記論文も参考になる。
- HelpSteer2: Open-source dataset for training top-performing reward models [9.2]
我々はパーミッシブにライセンスされた選好データセットであるHelpSteer2を開発した。 HelpSteer2は1万のレスポンスペアで構成されている。 本稿では,報奨モデルによって予測される多属性スコアを効果的に活用できるモデルアライメント手法であるSteerLM 2.0を提案する。
論文 参考訳(メタデータ) (Wed, 12 Jun 2024 22:28:08 GMT) - NVIDIAによるRewardモデル用データセットと手法の提案
- データはnvidia/HelpSteer2 · Datasets at Hugging Face リポジトリはGitHub – NVIDIA/NeMo-Aligner: Scalable toolkit for efficient model alignment