強化学習のタスクをTransformerで

  • Decision Transformer: Reinforcement Learning via Sequence Modeling [102.9]
    本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。 その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
    論文  参考訳(メタデータ)   (Wed, 2 Jun 2021 17:53:39 GMT)
    • 強化学習のタスクを言語モデル風に解くという論文。性能が良く、強化学習の一部にTransformerを使うというアーキテクチャでもないのが驚き。MLPで良いのでは?という論文も出ているが、やはりTransformerは優れた構造なのかなと思う。