- Apple Intelligence Foundation Language Models [109.6]
本報告では、モデルアーキテクチャ、モデルトレーニングに使用されるデータ、トレーニングプロセス、評価結果について述べる。 私たちは、Responsible AIと、モデル開発全体を通して原則がどのように適用されているかに重点を置いています。
論文 参考訳(メタデータ) (Mon, 29 Jul 2024 18:38:49 GMT) - Appleによる基盤モデルの紹介。「AFM-server: We train AFM-server from scratch for 6.3T tokens on 8192 TPUv4 chips, using a sequence length of 4096 and a batch-size of 4096 sequences.」といったようにかなり詳細な内容が記載されている。「AFM-on-device: For the on-device model, we found that knowledge distillation [Hinton et al , 2015] and structural pruning are effective ways to improve model performance and training efficiency.」とデバイス向けはMINITRON / Compact Language Models via Pruning and Knowledge Distillation – arXiv最新論文の紹介 (devneko.jp)と近いアプローチに見える。
- プロジェクトサイトはIntroducing Apple’s On-Device and Server Foundation Models – Apple Machine Learning Research