DolmaとOLMo

オープンなコーパスとそれを用いたLLMの提案。コーパスは3T tokensと極めて大きい(CommonCrawlがデータの多くを占めている)。それ用いてApache-2のLLMがリリースされている。

OLMo-7Bのベンチマーク結果はLlama-2 7Bを超えており非常に高い。OSSライセンスで公開されているのは凄く、トレーニングデータが公開されているのが特徴的。

データ・モデル・コードのリポジトリはallenai/dolma · Datasets at Hugging Faceallenai/OLMo-7B · Hugging Faceallenai/OLMo: Modeling, training, eval, and inference code for OLMo (github.com)

  • Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [140.6]
    われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。 本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。 Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 20:29:50 GMT)
  • OLMo: Accelerating the Science of Language Models [166.1]
    言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。 我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。 このテクニカルレポートは、最先端の真にオープンな言語モデルであるOLMoの最初のリリースを詳述している。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 18:28:55 GMT)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です