先週もLLM関連のニュースが多かった。
Phi-3はMicrsoftによる小規模(?)LLM、3.8Bパラメータと比較的小さいが性能が高いと主張。
- Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [144.9]
phi-3-miniは、3.3兆のトークンで訓練された38億のパラメータ言語モデルである。 MMLUでは69%、MTベンチでは8.38である。
論文 参考訳(メタデータ) (Mon, 22 Apr 2024 14:32:33 GMT) - リポジトリはPhi-3 – a microsoft Collection (huggingface.co)
Snowflakeが発表したSnowflake Arcticは総パラメータ数480Bだが、推論時は17BパラメータのみアクティブになるMoE構成。面白い構成で性能はLlama3 70B相当を主張、Apache-2ライセンスと真にオープンソースなライセンスである点も素晴らしい。
Snowflake Arctic – エンタープライズAI向けLLM
SenseNovaはSenseTimeによるLLMでGPT 4 turbo超え(ただし最新モデルはない)を主張。クローズドなモデルではあるが性能競争が激しくなっていることを示している。
SenseTime launches SenseNova 5.0 with comprehensive updates and the industry-leading “Cloud-to-Edge” full-stack large model product matrix-Newsroom-SenseTime
AppleがLLMを公開したことも興味深い。
- OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework [26.7]
私たちは最先端のオープン言語モデルであるOpenELMをリリースします。 パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
論文 参考訳(メタデータ) (Mon, 22 Apr 2024 23:12:03 GMT) - リポジトリはapple/OpenELM · Hugging Face
その他、Qwen 1.5の大規模モデルであるQwen-1.5(Qwen/Qwen1.5-110B · Hugging Face)が公開、Nyonic Wonton7Bが発表などLLM界隈は非常に活況である。
https://huggingface.co/datasets/HuggingFaceFW/fineweb に関連したX(旧twitter)での投稿も話題になっていた。XユーザーのThomas Wolfさん: 「This take on the FineWeb release is one of the most interesting feedback and also a reason FineWeb is very different from even larger datasets like RedPajama-V2 (which is double its size!) Surprisingly, the size of the dataset of 15T tokens is not very important, what is much…」 / X (twitter.com) 「Before I dive more in this let me give you an example of unintuitive behavior. Between 2022 and 2023 the “LLM quality” of Common Crawl dropped significantly as in “training a LLM on the crawls btw 2022-2023 will give you lower performances on a set of evals”. What happened? Well it turns out the Common Crawl team has been filtering more strongly domains with adult content. Not really the cause you’d be intuitively thinking about, right?」は非常に興味深い。
- Nyonic Technical Report [20.8]
Wonton 7Bモデルは、多言語および英語のベンチマークで競合性能を示した。 モデルのアーキテクチャは、ロータリー位置埋め込み(Rotary Positional Embeddings)、QK-LayerNorm(QK-LayerNorm)、特別に製作された多言語トークンーザ(multilingual tokenizer)などの最先端技術で強化されている。
論文 参考訳(メタデータ) (Wed, 24 Apr 2024 07:38:44 GMT) - GitHub – nyonicai/nyonic-public: Reference implementation of models from Nyonic Model Factory