Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2] 大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。 我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。 論文参考訳(メタデータ) (Thu, 18 May 2023 00:35:38 GMT)
世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ(VirtualHome)を用いてより広い情報を集めるアプローチで大変興味深い。
Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.3] 人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。 ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。 論文参考訳(メタデータ) (Mon, 21 Nov 2022 16:00:31 GMT)
A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free Reinforcement Learning [86.1] 深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。 機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界で20分で学習できる。 論文参考訳(メタデータ) (Tue, 16 Aug 2022 17:37:36 GMT)
Solving the Traveling Salesperson Problem with Precedence Constraints by Deep Reinforcement Learning [59.1] 本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。 これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。 論文参考訳(メタデータ)参考訳(全文) (Mon, 4 Jul 2022 14:31:47 GMT)
Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language [121.6] グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。 本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。 論文参考訳(メタデータ) (Thu, 12 May 2022 14:20:31 GMT)
FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance [58.8] FinRL-Metaは、データ駆動型金融強化学習のための市場環境の宇宙を構築している。 まず、FinRL-MetaはDRLベースの戦略の設計パイプラインから財務データ処理を分離する。 FinRL-Metaは様々な取引タスクに数百の市場環境を提供している。FinRL-Metaは数千のGPUコアを活用することで、マルチプロセスシミュレーションとトレーニングを可能にする。 論文参考訳(メタデータ) (Mon, 13 Dec 2021 16:03:37 GMT)
Tell me why! — Explanations support learning of relational and causal structure [24.4] 説明は人間の学習において重要な役割を担い、特にAIにとって大きな課題が残る分野においてである。 我々は、強化学習エージェントが説明の恩恵を受ける可能性があることを示す。 我々の結果は、説明からの学習が強力な原則であり、より堅牢で一般的な機械学習システムのトレーニングに有望な道筋を提供することを示唆している。 論文参考訳(メタデータ) (Wed, 8 Dec 2021 12:48:22 GMT)
AI in Games: Techniques, Challenges and Opportunities [40.9] Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。 本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。 論文参考訳(メタデータ) (Mon, 15 Nov 2021 09:35:53 GMT)