- Transcending Scaling Laws with 0.1% Extra Compute [128.1]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。 本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。 ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (Thu, 20 Oct 2022 16:46:41 GMT)- 0.1 %と少ない計算量を使用するUL2Rで性能が大幅に向上するとの論文
- 論文中の表記だとUL2: Unified language learner Restore ? R: Restore?
- UL2 20B: An Open Source Unified Language Learner – Google AI Blog (googleblog.com)でdenoiserを混合するアプローチ
- Fugu-MT 論文翻訳(概要): Unifying Language Learning Paradigms (fugumt.com)
- 処理を行ったU-PaLMは、英語のNLPタスク(例えば、常識推論、質問応答)、連鎖思考(eg、GSM8K)、多言語タスク(MGSM、TydiQA)、MMLU、BIG-Benchタスクなどでfew-shot PaLMよりも優れているとのこと。
- 0.1 %と少ない計算量を使用するUL2Rで性能が大幅に向上するとの論文