コンテンツへスキップ
- Predicting Emergent Capabilities by Finetuning [99.0]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。 提案手法は4つの標準NLPベンチマークを用いて検証する。 いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 01:48:09 GMT)
- 「we found that our specific emergence prediction approach (e g , emergence law) can accurately predict the point of emergence up to 4x the FLOPS in advance, representing meaningful progress on the challenging unsolved problem of emergence prediction.」とのこと。
- fine tuningでどこまでいけるか?を知りたい状況は多いので有用な研究(だが、現時点で実用的かはやや疑問)
- MH-MoE:Multi-Head Mixture-of-Experts [119.5]
MH-MoE(Multi-Head Mixture-of-Experts)は,マルチヘッド機構を用いて, 異なる専門家内の様々な表現空間からの情報を集約し, 優れた性能を示す。 FLOPとパラメータパリティの両方をスパースミキサーモデルで維持するMH-MoEの新たな実装を提案する。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 09:05:36 GMT)
- Fugu-MT 論文翻訳(概要): Multi-Head Mixture-of-Experts の実装の改善
- 「In this paper, we present a novel implementation of MH-MoE that maintains both FLOPs and parameter parity with sparse Mixture of Experts models.」