- Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.3]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。 ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (Mon, 21 Nov 2022 16:00:31 GMT) - DeepMindによる全部入り強化学習のような論文。 “Inter-temporal Bradley-Terry” (IBT) modellingにより人間の判断をキャプチャする報酬モデルを構築できたとのこと。
- 時間的な軌跡を考慮している点が特徴なのだろうか?
- ビデオが公開されているImproving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback – YouTube