A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms

A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

  • A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B [11.8]
    本稿では、7Bから405Bのモデルにおける命令調整型LLMの性能を評価する。 我々は6つのタスクタイプ(常識Q&A、知識と言語理解、指示追従、幻覚検出、数学、対話)のパフォーマンスを評価する。
    論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 10:31:37 GMT)
  • 量子化の影響を分析した論文、「We found that quantized LLMs generally outperformed smaller models in most tasks, except for hallucination detection and instruction-following.」と結論。後半はちょっと驚き。

How Does Quantization Affect Multilingual LLMs? 

  • How Does Quantization Affect Multilingual LLMs? [50.9]
    量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。 量子化多言語 LLM の徹底的な解析を行い、言語間および様々なスケールでその性能に焦点をあてる。自動ベンチマーク, LLM-as-a-Judge 法, 人的評価を用いて, 1) 量子化の有害な影響は人的評価において明らかであり, 1) 自動タスクにおける日本語の1.7%の平均低下は, 現実的なプロンプト上での人間の評価者による16.0%の減少に対応し, 2) 言語は量子化の影響を受け, 非ラテン語のスクリプト言語が最悪の影響を受け, (3) 数学的推論などの課題が急速に悪化する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 15:39:40 GMT)
  • LLMに対する量子化の影響を多言語の観点で調査した論文。「(1) Damage from quantization is much worse than appears from automatic metrics: even when not observed automatically, human evaluators notice it.」、「(2) Quantization affects languages to varying degrees, with nonLatin script languages more severely affected on automatic benchmarks.」、「(3) Challenging tasks degrade fast and severely: math performance is strikingly reduced, as are responses on realistic challenging」という結論。
  • 多言語(というか日本語)への影響は経験的にもそうだと思う。英語以外の対応にも力を入れているCohereらしい調査な気がする。

Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study

  • Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.3]
    本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。 実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。 低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
    論文  参考訳(メタデータ)   (Sun, 16 Jul 2023 15:11:01 GMT)
  • LLMの利用で一な低ビットでの量子化が性能に与える影響を調べた論文。4bitまでは大きな劣化はないが2bitでは深刻な性能劣化が起きるとのこと。
  • リポジトリはGitHub – RUCAIBox/QuantizedEmpirical