強化学習 – ページ 2 – arXiv最新論文の紹介

AFK(Asking for Knowledge): 質問をする強化学習

Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language [121.6]
グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
論文参考訳（メタデータ） (Thu, 12 May 2022 14:20:31 GMT)
- 外部知識にクエリーが可能な強化学習エージェントの提案。実行環境を作ったうえで有効性を確認している。
  - エージェントと環境を仲介するのが自然言語であるのが興味深い。
- プロジェクトサイトはAFK (ioujenliu.github.io)

Democratic AI: 強化学習を用いた human-in-the-loop pipelineによる再配分

Human-centered mechanism design with Democratic AI [9.8]
人間に好まれる社会メカニズムの設計に強化学習を用いるDemocratic AIと呼ばれるパイプラインを開発します。人間の好みを最適化することによって、民主的AIは、価値に合わせた政策革新の有望な方法になり得る。
論文参考訳（メタデータ） (Thu, 27 Jan 2022 10:56:33 GMT)
- オンライン投資ゲームにおける富の再配分メカニズムの設計に深層強化学習を利用、人間のレフェリーよりも好まれるメカニズムが作れたとの報告。
  - DeepMindっぽい面白い研究だと思った。人間の介入無しの“AI government”を指示しているわけではないことも強調されている。Potential limitations of Democratic AIにあるようなAIの限界に関する議論は興味深い。

FinRL-Meta: Deep reinforcement learning用の金融市場データ処理・シミュレーション環境

FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance [58.8]
FinRL-Metaは、データ駆動型金融強化学習のための市場環境の宇宙を構築している。まず、FinRL-MetaはDRLベースの戦略の設計パイプラインから財務データ処理を分離する。 FinRL-Metaは様々な取引タスクに数百の市場環境を提供している。FinRL-Metaは数千のGPUコアを活用することで、マルチプロセスシミュレーションとトレーニングを可能にする。
論文参考訳（メタデータ） (Mon, 13 Dec 2021 16:03:37 GMT)
- 金融の深層強化学習での利用を想定した金融市場データのハンドリング・シミュレーション環境の提案。High-Frequency Tradingや暗号資産のトレード、株式ポートフォリオの設定など様々な用途に対応しているとのこと。
- リポジトリはGitHub – AI4Finance-Foundation/FinRL-Meta: FinRL-Meta: A Universe for Data-Driven Financial Reinforcement Learning. 🔥

Tell me why!: AI（強化学習エージェント）も説明から恩恵を受ける

Tell me why! — Explanations support learning of relational and causal structure [24.4]
説明は人間の学習において重要な役割を担い、特にAIにとって大きな課題が残る分野においてである。我々は、強化学習エージェントが説明の恩恵を受ける可能性があることを示す。我々の結果は、説明からの学習が強力な原則であり、より堅牢で一般的な機械学習システムのトレーニングに有望な道筋を提供することを示唆している。
論文参考訳（メタデータ） (Wed, 8 Dec 2021 12:48:22 GMT)
- 「説明」が強化学習のエージェントに恩恵を与えるかを検証した論文。エージェントは「説明」を予測することでその情報を取り入れるとの設定。「説明」はエージェントが簡単な特徴を好むバイアスの回避、あいまいな経験から分布外への一般化、因果構造を特定に効果があるとしている。

GameにおけるAIのサーベイ

AI in Games: Techniques, Challenges and Opportunities [40.9]
Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
論文参考訳（メタデータ） (Mon, 15 Nov 2021 09:35:53 GMT)
- 碁のようなボードゲーム、テキサス・ホールデムのようなカードゲーム、FPS、リアルタイムストラテジーゲームと4種類のゲームとそのAIに関するサーベイ。ゲームは意思決定と密接に関わっており、応用範囲は広い印象。

EfficientZero: 高効率な強化学習

Mastering Atari Games with Limited Data [73.6]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文参考訳（メタデータ） (Sat, 30 Oct 2021 09:13:39 GMT)
DQNが2億フレームで到達する性能を、その500分の1のフレーム数で達成できる強化学習のアルゴリズム。
リポジトリはhttps://github.com/YeWR/EfficientZero/

未来のインターネットにおける Multi-Agent Reinforcement Learning

Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey [45.8]
マルチエージェント強化学習(MARL)により、各ネットワークエンティティは環境だけでなく、他のエンティティのポリシーも観察することで、最適なポリシーを学ぶことができる。 MARLはネットワークエンティティの学習効率を大幅に向上させることができ、近年、新興ネットワークにおける様々な問題を解決するために使用されている。
論文参考訳（メタデータ） (Tue, 26 Oct 2021 08:26:55 GMT)
- 5Gやその先にあるようなネットワークでマルチエージェントな強化学習で何が必要か、どのような研究課題があるかをまとめたサーベイ。研究課題については既存アプローチが整理されており非常に勉強になる。

GPT-3＋人間のフィードバックを用いた再帰的な要約モデル

Recursively Summarizing Books with Human Feedback [10.1]
本論では,小説全体の抽象的要約の課題について述べる。タスクの小さな部分でトレーニングされたモデルを使用して、より広範なタスクに対するフィードバックの提供を支援します。書籍長要約のための最近のBookSumデータセットについて,最先端の成果を得た。
論文参考訳（メタデータ） (Wed, 22 Sep 2021 17:34:18 GMT)
- 本のセクションを要約、それらをさらに要約して本全体の要約を作成する方針の研究。それ自体はシンプルなアプローチだが、GPT-3（family）の使用、人間のラベラーのフィードバックを強化学習に利用など詳細な手法が興味深い。
- 「We chose narrative fiction books due to our belief that they were the most difficult to summarize, which is supported by our later qualitative findings (Appendix J).」というのも面白い。ELYZA digestとかでも難しいとされていた気がする。

AI Economist: 強化学習を用いた課税モデルの検証

The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning [126.4]
機械学習に基づく経済シミュレーションは強力な政策・メカニズム設計の枠組みであることを示す。 AIエコノミスト(AI Economist)は、エージェントと共同適応するソーシャルプランナーの両方を訓練する2段階のディープRLフレームワークである。単純な一段階の経済では、AIエコノミストは経済理論の最適税制を再現する。
論文参考訳（メタデータ） (Thu, 5 Aug 2021 17:42:35 GMT)
- 深層強化学習を政策に取り入れられるかを検討・シミュレーションした研究。複雑な状況でも動作し、突発的な戦略的行動（≒節税的行動）があった場合も対応していくとのこと。現実に利用可能かはおいておいて興味深い研究だと思う。
- ソースコードはhttps://github.com/salesforce/ai-economist、Salesforce Researchのhttps://einstein.ai/the-ai-economist関連のプロジェクト。

Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist [67.1]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。 RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文参考訳（メタデータ） (Fri, 6 Aug 2021 01:30:41 GMT)
- 関連する報告があったため追加。

SocialAI: 社会的スキルのためのベンチマーク

SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.7]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。 DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文参考訳（メタデータ） (Fri, 2 Jul 2021 10:39:18 GMT)
DRL(Deep Reinforcement Learning)のための社会的スキル獲得を評価するベンチマーク。Intertwinded multimodality、 Theory of Mind(ToM)、 Pragmatic framesといったソーシャルスキルに関連するタスクを設定。
詳細はhttps://sites.google.com/view/socialaiから確認可能

2024年5月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31