Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey
Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey [22.5] 優先度調整は、深層生成モデルと人間の嗜好を整合させる重要なプロセスである。 この調査は、最近の嗜好調整の進歩と人間のフィードバックの統合を概観するものである。 論文参考訳(メタデータ) (Tue, 17 Sep 2024 21:28:51 GMT)