強化学習を系列データに対するモデリングとして扱う

Reinforcement Learning as One Big Sequence Modeling Problem [84.8]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文参考訳（メタデータ） (Thu, 3 Jun 2021 17:58:51 GMT)
- 強化学習を系列データのモデリング問題として扱うという論文。前回のものと同じ発想。前とは別グループっぽいので有用なアプローチなのかもしれない。

コメントを残す

コメントを残す コメントをキャンセル