- Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [99.0]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。 彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 15:12:38 GMT) - The Unreasonable Effectiveness of Easy Training Data for Hard Tasks – arXiv最新論文の紹介 (devneko.jp)でも取り上げられていた話だが、PRMs(process reward models)やOPRMs(Outcome & Process Reward Model)を用いるとさらに有効とのこと。
- AGIやASIという話を聞くにこのような手法の重要性が高まっているように思う(一方で結論にある「This approach presents a promising direction for developing AI systems capable of surpassing human problem-solving capabilities」のように人間がEasy側に位置づけられるのは複雑な思いもある)
- リポジトリはEdward-Sun/easy-to-hard (github.com)