コンテンツへスキップ
- Learning to Model the World with Language [98.2]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文 参考訳(メタデータ) (Mon, 31 Jul 2023 17:57:49 GMT)
- エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
- プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)
- Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。 我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (Thu, 18 May 2023 00:35:38 GMT)
- 世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ(VirtualHome)を用いてより広い情報を集めるアプローチで大変興味深い。
- 重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors & elastic weight consolidationのEWC-LoRAという手法を用いているそう。
- Momentum Calibration for Text Generation [86.6]
テキスト生成のためのMoCa(Momentum Calibration)を提案する。 MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
論文 参考訳(メタデータ) (Thu, 8 Dec 2022 13:12:10 GMT)
- テキスト生成時のビームサーチ部分を強化学習的な手法で改善するという研究。
- CNN/DMでの結果が非常に高い
- A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free Reinforcement Learning [86.1]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。 機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界で20分で学習できる。
論文 参考訳(メタデータ) (Tue, 16 Aug 2022 17:37:36 GMT)- (4足歩行とはいえ)既存研究を組み合わせることで現実環境の歩行を20分で学習可能という報告。
- Solving the Traveling Salesperson Problem with Precedence Constraints by Deep Reinforcement Learning [59.1]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。 これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 4 Jul 2022 14:31:47 GMT)
- Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language [121.6]
グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。 本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
論文 参考訳(メタデータ) (Thu, 12 May 2022 14:20:31 GMT)
- Human-centered mechanism design with Democratic AI [9.8]
人間に好まれる社会メカニズムの設計に強化学習を用いるDemocratic AIと呼ばれるパイプラインを開発します。人間の好みを最適化することによって、民主的AIは、価値に合わせた政策革新の有望な方法になり得る。
論文 参考訳(メタデータ) (Thu, 27 Jan 2022 10:56:33 GMT)- オンライン投資ゲームにおける富の再配分メカニズムの設計に深層強化学習を利用、人間のレフェリーよりも好まれるメカニズムが作れたとの報告。
- DeepMindっぽい面白い研究だと思った。人間の介入無しの“AI government”を指示しているわけではないことも強調されている。Potential limitations of Democratic AIにあるようなAIの限界に関する議論は興味深い。
- FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance [58.8]
FinRL-Metaは、データ駆動型金融強化学習のための市場環境の宇宙を構築している。 まず、FinRL-MetaはDRLベースの戦略の設計パイプラインから財務データ処理を分離する。 FinRL-Metaは様々な取引タスクに数百の市場環境を提供している。FinRL-Metaは数千のGPUコアを活用することで、マルチプロセスシミュレーションとトレーニングを可能にする。
論文 参考訳(メタデータ) (Mon, 13 Dec 2021 16:03:37 GMT)