強化学習 – arXiv最新論文の紹介

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [99.0]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文参考訳（メタデータ） (Thu, 14 Mar 2024 15:12:38 GMT)
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks – arXiv最新論文の紹介 (devneko.jp)でも取り上げられていた話だが、PRMs(process reward models)やOPRMs(Outcome & Process Reward Model)を用いるとさらに有効とのこと。
AGIやASIという話を聞くにこのような手法の重要性が高まっているように思う（一方で結論にある「This approach presents a promising direction for developing AI systems capable of surpassing human problem-solving capabilities」のように人間がEasy側に位置づけられるのは複雑な思いもある）
リポジトリはEdward-Sun/easy-to-hard (github.com)

XRL-Bench

XRL-Bench: A Benchmark for Evaluating and Comparing Explainable Reinforcement Learning Techniques [36.3]
強化学習(Reinforcement Learning, RL)は、様々な分野において大きな可能性を証明しているが、その意思決定プロセスを理解することは、現在進行中の課題である。本稿では, 説明可能なAI(XAI)のサブフィールドである説明可能なRL(XRL)について述べる。我々の焦点は状態記述技術であり、XRL法における重要な部分集合であり、エージェントの行動にいつでも影響を及ぼす要因を明らかにすることである。
論文参考訳（メタデータ） (Tue, 20 Feb 2024 03:20:37 GMT)
説明可能な強化学習のためのベンチマーク
リポジトリはfuxiAIlab/xrl-bench (github.com)

強化学習と拡散モデル

Diffusion Models for Reinforcement Learning: A Survey [26.6]
拡散モデルは、生成モデルの顕著なクラスとして現れている。最近の研究は、強化学習ソリューションの改善における拡散モデルの利点を示している。
論文参考訳（メタデータ） (Thu, 2 Nov 2023 13:23:39 GMT)
強化学習と拡散モデルに関するサーベイ。拡散モデルの役割としては大きく分けて「Diffusion models as the planner」「Diffusion models as the policy」「Diffusion models as the data synthesizer」というアプローチがあるとのこと。
リポジトリはGitHub – apexrl/Diff4RLSurvey: This repository contains a collection of resources and papers on Diffusion Models for RL, accompanying the paper “Diffusion Models for Reinforcement Learning: A Survey”

EUREKA: Evolution-driven Universal REward Kit for Agent

Eureka: Human-Level Reward Design via Coding Large Language Models [126.0]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。 LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。 Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 17:31:01 GMT)
LLMを用いた reward design algorithm の提案。性能は人間レベルとのことであり、「EUREKA can improve and benefit from human reward functions.」とのこと。強化学習を利用する場合に難しい部分をサポートできる可能性がある。
プロジェクトサイトはEureka | Human-Level Reward Design via Coding Large Language Models (eureka-research.github.io)

Dynalang

Learning to Model the World with Language [98.2]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文参考訳（メタデータ） (Mon, 31 Jul 2023 17:57:49 GMT)
エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)

Language Models Meet World Models

Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文参考訳（メタデータ） (Thu, 18 May 2023 00:35:38 GMT)
世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ（VirtualHome）を用いてより広い情報を集めるアプローチで大変興味深い。
重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors ＆ elastic weight consolidationのEWC-LoRAという手法を用いているそう。

MoCa: Momentum Calibration

Momentum Calibration for Text Generation [86.6]
テキスト生成のためのMoCa(Momentum Calibration)を提案する。 MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 13:12:10 GMT)
テキスト生成時のビームサーチ部分を強化学習的な手法で改善するという研究。
CNN/DMでの結果が非常に高い

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.3]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文参考訳（メタデータ） (Mon, 21 Nov 2022 16:00:31 GMT)
DeepMindによる全部入り強化学習のような論文。 “Inter-temporal Bradley-Terry” (IBT) modellingにより人間の判断をキャプチャする報酬モデルを構築できたとのこと。
- 時間的な軌跡を考慮している点が特徴なのだろうか？
ビデオが公開されているImproving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback – YouTube

深層強化学習: 20分間で公園内の四足歩行を学習

A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free Reinforcement Learning [86.1]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界で20分で学習できる。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 17:37:36 GMT)
- （4足歩行とはいえ）既存研究を組み合わせることで現実環境の歩行を20分で学習可能という報告。
  - 昔の苦労から考えるとすごい進化
- プロジェクトサイトはHome (google.com)、リポジトリはikostrikov/walk_in_the_park (github.com)

Traveling Salesperson Problem + 深層強化学習

Solving the Traveling Salesperson Problem with Precedence Constraints by Deep Reinforcement Learning [59.1]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文参考訳（メタデータ）参考訳（全文） (Mon, 4 Jul 2022 14:31:47 GMT)
- TSPに対するDeep learning（Transformer）の適用。LKH-3の方が優れているのでは？と思わなくもないが、テーブルデータに対するDeep系モデル適用のように状況（Transferを使うなど）によっては意味があるのだろうか。
- リポジトリはGitHub – christianll9/tsppc-drl: Solving the Traveling Salesperson Problem with Precedence Constraints (TSPPC) by Deep Reinforcement Learning

2024年4月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30