コンテンツへスキップ
- A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free Reinforcement Learning [86.1]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。 機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界で20分で学習できる。
論文 参考訳(メタデータ) (Tue, 16 Aug 2022 17:37:36 GMT)- (4足歩行とはいえ)既存研究を組み合わせることで現実環境の歩行を20分で学習可能という報告。
- Solving the Traveling Salesperson Problem with Precedence Constraints by Deep Reinforcement Learning [59.1]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。 これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 4 Jul 2022 14:31:47 GMT)
- Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language [121.6]
グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。 本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
論文 参考訳(メタデータ) (Thu, 12 May 2022 14:20:31 GMT)
- Human-centered mechanism design with Democratic AI [9.8]
人間に好まれる社会メカニズムの設計に強化学習を用いるDemocratic AIと呼ばれるパイプラインを開発します。人間の好みを最適化することによって、民主的AIは、価値に合わせた政策革新の有望な方法になり得る。
論文 参考訳(メタデータ) (Thu, 27 Jan 2022 10:56:33 GMT)- オンライン投資ゲームにおける富の再配分メカニズムの設計に深層強化学習を利用、人間のレフェリーよりも好まれるメカニズムが作れたとの報告。
- DeepMindっぽい面白い研究だと思った。人間の介入無しの“AI government”を指示しているわけではないことも強調されている。Potential limitations of Democratic AIにあるようなAIの限界に関する議論は興味深い。
- FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance [58.8]
FinRL-Metaは、データ駆動型金融強化学習のための市場環境の宇宙を構築している。 まず、FinRL-MetaはDRLベースの戦略の設計パイプラインから財務データ処理を分離する。 FinRL-Metaは様々な取引タスクに数百の市場環境を提供している。FinRL-Metaは数千のGPUコアを活用することで、マルチプロセスシミュレーションとトレーニングを可能にする。
論文 参考訳(メタデータ) (Mon, 13 Dec 2021 16:03:37 GMT)
- Tell me why! — Explanations support learning of relational and causal structure [24.4]
説明は人間の学習において重要な役割を担い、特にAIにとって大きな課題が残る分野においてである。 我々は、強化学習エージェントが説明の恩恵を受ける可能性があることを示す。 我々の結果は、説明からの学習が強力な原則であり、より堅牢で一般的な機械学習システムのトレーニングに有望な道筋を提供することを示唆している。
論文 参考訳(メタデータ) (Wed, 8 Dec 2021 12:48:22 GMT)- 「説明」が強化学習のエージェントに恩恵を与えるかを検証した論文。エージェントは「説明」を予測することでその情報を取り入れるとの設定。「説明」はエージェントが簡単な特徴を好むバイアスの回避、あいまいな経験から分布外への一般化、因果構造を特定に効果があるとしている。
- AI in Games: Techniques, Challenges and Opportunities [40.9]
Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。 本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
論文 参考訳(メタデータ) (Mon, 15 Nov 2021 09:35:53 GMT)- 碁のようなボードゲーム、テキサス・ホールデムのようなカードゲーム、FPS、リアルタイムストラテジーゲームと4種類のゲームとそのAIに関するサーベイ。ゲームは意思決定と密接に関わっており、応用範囲は広い印象。
- Mastering Atari Games with Limited Data [73.6]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。 提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。 アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (Sat, 30 Oct 2021 09:13:39 GMT) - DQNが2億フレームで到達する性能を、その500分の1のフレーム数で達成できる強化学習のアルゴリズム。
- リポジトリはhttps://github.com/YeWR/EfficientZero/
- Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey [45.8]
マルチエージェント強化学習(MARL)により、各ネットワークエンティティは環境だけでなく、他のエンティティのポリシーも観察することで、最適なポリシーを学ぶことができる。 MARLはネットワークエンティティの学習効率を大幅に向上させることができ、近年、新興ネットワークにおける様々な問題を解決するために使用されている。
論文 参考訳(メタデータ) (Tue, 26 Oct 2021 08:26:55 GMT)- 5Gやその先にあるようなネットワークでマルチエージェントな強化学習で何が必要か、どのような研究課題があるかをまとめたサーベイ。研究課題については既存アプローチが整理されており非常に勉強になる。