強化学習 – ページ 3 – arXiv最新論文の紹介

強化学習を系列データに対するモデリングとして扱う

Reinforcement Learning as One Big Sequence Modeling Problem [84.8]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文参考訳（メタデータ） (Thu, 3 Jun 2021 17:58:51 GMT)
- 強化学習を系列データのモデリング問題として扱うという論文。前回のものと同じ発想。前とは別グループっぽいので有用なアプローチなのかもしれない。

Decision Transformer: Reinforcement Learning via Sequence Modeling [102.9]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文参考訳（メタデータ） (Wed, 2 Jun 2021 17:53:39 GMT)
- 強化学習のタスクを言語モデル風に解くという論文。性能が良く、強化学習の一部にTransformerを使うというアーキテクチャでもないのが驚き。MLPで良いのでは？という論文も出ているが、やはりTransformerは優れた構造なのかなと思う。

DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization [127.2]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。 DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。 MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文参考訳（メタデータ） (Thu, 13 May 2021 17:33:26 GMT)
- 究極的なマルチモーダルであると同時に、強化学習のフレームワークを利用して性能を出している点が興味深い。

Policy Fusion for Adaptive and Customizable Reinforcement Learning Agents [137.9]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文参考訳（メタデータ） (Wed, 21 Apr 2021 16:08:44 GMT)
- 主としてゲーム（NPCの動き）を対象にPolicyの融合を取り扱った論文。多様性を生み出す上では重要な気がする。