- Eureka: Human-Level Reward Design via Coding Large Language Models [126.0]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。 LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。 Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
論文 参考訳(メタデータ) (Thu, 19 Oct 2023 17:31:01 GMT) - LLMを用いた reward design algorithm の提案。性能は人間レベルとのことであり、「EUREKA can improve and benefit from human reward functions.」とのこと。強化学習を利用する場合に難しい部分をサポートできる可能性がある。
- プロジェクトサイトはEureka | Human-Level Reward Design via Coding Large Language Models (eureka-research.github.io)