強化学習 – ページ 3 – arXiv最新論文の紹介

強化学習と拡散モデル

Diffusion Models for Reinforcement Learning: A Survey [26.6]
拡散モデルは、生成モデルの顕著なクラスとして現れている。最近の研究は、強化学習ソリューションの改善における拡散モデルの利点を示している。
論文参考訳（メタデータ） (Thu, 2 Nov 2023 13:23:39 GMT)
強化学習と拡散モデルに関するサーベイ。拡散モデルの役割としては大きく分けて「Diffusion models as the planner」「Diffusion models as the policy」「Diffusion models as the data synthesizer」というアプローチがあるとのこと。
リポジトリはGitHub – apexrl/Diff4RLSurvey: This repository contains a collection of resources and papers on Diffusion Models for RL, accompanying the paper “Diffusion Models for Reinforcement Learning: A Survey”

EUREKA: Evolution-driven Universal REward Kit for Agent

Eureka: Human-Level Reward Design via Coding Large Language Models [126.0]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。 LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。 Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 17:31:01 GMT)
LLMを用いた reward design algorithm の提案。性能は人間レベルとのことであり、「EUREKA can improve and benefit from human reward functions.」とのこと。強化学習を利用する場合に難しい部分をサポートできる可能性がある。
プロジェクトサイトはEureka | Human-Level Reward Design via Coding Large Language Models (eureka-research.github.io)

Dynalang

Learning to Model the World with Language [98.2]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文参考訳（メタデータ） (Mon, 31 Jul 2023 17:57:49 GMT)
エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)

Language Models Meet World Models

Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文参考訳（メタデータ） (Thu, 18 May 2023 00:35:38 GMT)
世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ（VirtualHome）を用いてより広い情報を集めるアプローチで大変興味深い。
重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors ＆ elastic weight consolidationのEWC-LoRAという手法を用いているそう。

MoCa: Momentum Calibration

Momentum Calibration for Text Generation [86.6]
テキスト生成のためのMoCa(Momentum Calibration)を提案する。 MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 13:12:10 GMT)
テキスト生成時のビームサーチ部分を強化学習的な手法で改善するという研究。
CNN/DMでの結果が非常に高い

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.3]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文参考訳（メタデータ） (Mon, 21 Nov 2022 16:00:31 GMT)
DeepMindによる全部入り強化学習のような論文。 “Inter-temporal Bradley-Terry” (IBT) modellingにより人間の判断をキャプチャする報酬モデルを構築できたとのこと。
- 時間的な軌跡を考慮している点が特徴なのだろうか？
ビデオが公開されているImproving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback – YouTube

深層強化学習: 20分間で公園内の四足歩行を学習

A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free Reinforcement Learning [86.1]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界で20分で学習できる。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 17:37:36 GMT)
- （4足歩行とはいえ）既存研究を組み合わせることで現実環境の歩行を20分で学習可能という報告。
  - 昔の苦労から考えるとすごい進化
- プロジェクトサイトはHome (google.com)、リポジトリはikostrikov/walk_in_the_park (github.com)

Traveling Salesperson Problem + 深層強化学習

Solving the Traveling Salesperson Problem with Precedence Constraints by Deep Reinforcement Learning [59.1]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文参考訳（メタデータ）参考訳（全文） (Mon, 4 Jul 2022 14:31:47 GMT)
- TSPに対するDeep learning（Transformer）の適用。LKH-3の方が優れているのでは？と思わなくもないが、テーブルデータに対するDeep系モデル適用のように状況（Transferを使うなど）によっては意味があるのだろうか。
- リポジトリはGitHub – christianll9/tsppc-drl: Solving the Traveling Salesperson Problem with Precedence Constraints (TSPPC) by Deep Reinforcement Learning

AFK(Asking for Knowledge): 質問をする強化学習

Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language [121.6]
グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
論文参考訳（メタデータ） (Thu, 12 May 2022 14:20:31 GMT)
- 外部知識にクエリーが可能な強化学習エージェントの提案。実行環境を作ったうえで有効性を確認している。
  - エージェントと環境を仲介するのが自然言語であるのが興味深い。
- プロジェクトサイトはAFK (ioujenliu.github.io)

Democratic AI: 強化学習を用いた human-in-the-loop pipelineによる再配分

Human-centered mechanism design with Democratic AI [9.8]
人間に好まれる社会メカニズムの設計に強化学習を用いるDemocratic AIと呼ばれるパイプラインを開発します。人間の好みを最適化することによって、民主的AIは、価値に合わせた政策革新の有望な方法になり得る。
論文参考訳（メタデータ） (Thu, 27 Jan 2022 10:56:33 GMT)
- オンライン投資ゲームにおける富の再配分メカニズムの設計に深層強化学習を利用、人間のレフェリーよりも好まれるメカニズムが作れたとの報告。
  - DeepMindっぽい面白い研究だと思った。人間の介入無しの“AI government”を指示しているわけではないことも強調されている。Potential limitations of Democratic AIにあるようなAIの限界に関する議論は興味深い。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31