- Weak-to-Strong Extrapolation Expedites Alignment [135.1]
人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。 AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。 本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
論文 参考訳(メタデータ) (Thu, 25 Apr 2024 17:39:50 GMT) - 「By extrapolating from the weights of an SFT model Mw and a further trained one M, EXPO enables directly obtaining a better-aligned model without any additional training.」という手法の提案。とてもシンプルに外装しているように見え、なんでこんなんでうごくんや。
- リポジトリはGitHub – chujiezheng/LLM-Extrapolation: Official repository for paper “Weak-to-Strong Extrapolation Expedites Alignment”