Introducing LLaMA: A foundational,65-billion-parameter large languagemodel
LLaMAは、研究者がAIのこのサブフィールドで研究を進めるのを助けるために設計された基礎的な大きな言語モデルである。ファンデーションモデルはラベルのない大量のデータをトレーニングするので、さまざまなタスクの微調整に理想的です。
フリーの大規模言語モデルで65BパラメータでGPT-3 (175B)を上回りPaLM(540B)に匹敵とのこと。オープンなモデルではあるがNon-Commercial用途のよう。
GPU-hourの比較が載っているがLLaMA(7B)で82432、LLaMA(65B)は1022362、p4d.24xlargeのオンデマンド価格(8 GPU hour)が32.77 USD、4500円くらいなので、7Bで良ければ5000万円くらいでトレーニングできる(オンデマンドでやる人はいないはずで実態はもっと安いだろうけど…)
主要なデータが英語のEnglish CommonCrawl [67%]、WikipediaとBooksデータは bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, ukを使用とのことで日本語の性能は期待できなさそう。(他例を見るとそれなりに使えたりもするかもしれないが・・・)
LLaMA: Open and Efficient Foundation Language Models – Meta Research (facebook.com)
GitHub – facebookresearch/llama: Inference code for LLaMA models