- Textbooks Are All You Need [46.8]
phi-1はトランスフォーマーベースのモデルで、1.3Bパラメータを持ち、8A100で4日間訓練された。 phi-1はHumanEvalで50.6%、MBPPで55.5%の精度を達成した。
論文 参考訳(メタデータ) (Tue, 20 Jun 2023 16:14:25 GMT) - 教科書品質のデータ(6B)+GPT-3.5が出力した品質の高いテキスト(1B)を用いて、1.3Bパラメータ(使用計算リソース 8 GPU * 4 days)という比較的小型で優れた性能を持つモデルが構築できたとのこと
- タスクがコード生成かつPythonと特化されている点に注意が必要だが、品質の高いデータの重要性が分かる報告。パラメータは小さめと言いつつ、パラメータ拡大が品質向上に効果がありそうに見える。