SLM – ページ 2 – arXiv最新論文の紹介

Small Language Models: Survey, Measurements, and Insights

Small Language Models: Survey, Measurements, and Insights [21.2]
小型言語モデル (SLM) は大規模言語モデル (LLM) に比べて学術的関心が著しく少ない。 59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムという3つの軸にわたる技術革新を分析します。
論文参考訳（メタデータ） (Tue, 24 Sep 2024 06:36:56 GMT)
「The weight range of SLMs in this work is defined between 100M to 5B.」という定義のもとのSLMに関するサーベイ。
リポジトリはGitHub – UbiquitousLearning/SLM_Survey

What is the Role of Small Models in the LLM Era: A Survey [13.2]
大規模言語モデル(LLM)は人工知能(AGI)の進歩に大きな進歩をもたらし、GPT-4やLLaMA-405Bのような大規模モデルの開発に繋がった。モデルのサイズを拡大すると、計算コストとエネルギー消費が指数関数的に増加し、これらのモデルは限られたリソースを持つ学術研究者やビジネスにとって実用的ではない。同時に、Small Models (SM) は実際的な設定で頻繁に使用されるが、その重要性は過小評価されている。
論文参考訳（メタデータ） (Tue, 10 Sep 2024 20:45:43 GMT)
実用上重要なスモールモデルに関するサーベイ。「 there is no clear definition distinguishing large models from small ones.」はですよねーという感じ。とはいえ整理軸含めて、納得感のある内容。
リポジトリはGitHub – tigerchen52/role_of_small_models

Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling [18.2]
強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。より強力なSEモデルと弱いが安価なWCモデルによる合成データ生成のトレードオフについて検討する。
論文参考訳（メタデータ） (Thu, 29 Aug 2024 17:32:35 GMT)
合成データ生成におけるstronger but more expensive (SE) model と a weaker but cheaper (WC) modelの比較。「Our results indicate that it is more compute-optimal to sample from a WC model as opposed to the common-practice of sampling from a SE model.」とのこと。
「3) a new paradigm we introduce called Weak-to-Strong Improvement, where a strong student LM improves using synthetic data from a weaker teacher LM.」という設定、および、意外なことにこれが有効である点も興味深い。

先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。

MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。

別Blogで検証を行った（Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)）感じ日本語でもタスクによっては優れた性能を発揮できそう。