Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback

  • Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.3]
    人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。 ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
    論文  参考訳(メタデータ)   (Mon, 21 Nov 2022 16:00:31 GMT)
  • DeepMindによる全部入り強化学習のような論文。 “Inter-temporal Bradley-Terry” (IBT) modellingにより人間の判断をキャプチャする報酬モデルを構築できたとのこと。
    • 時間的な軌跡を考慮している点が特徴なのだろうか?
  • ビデオが公開されているImproving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback – YouTube

深層強化学習: 20分間で公園内の四足歩行を学習

  • A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free Reinforcement Learning [86.1]
    深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。 機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界で20分で学習できる。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 17:37:36 GMT)
    • (4足歩行とはいえ)既存研究を組み合わせることで現実環境の歩行を20分で学習可能という報告。
      • 昔の苦労から考えるとすごい進化

Traveling Salesperson Problem + 深層強化学習

AFK(Asking for Knowledge): 質問をする強化学習

  • Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language [121.6]
    グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。 本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
    論文  参考訳(メタデータ)   (Thu, 12 May 2022 14:20:31 GMT)
    • 外部知識にクエリーが可能な強化学習エージェントの提案。実行環境を作ったうえで有効性を確認している。
      • エージェントと環境を仲介するのが自然言語であるのが興味深い。
    • プロジェクトサイトはAFK (ioujenliu.github.io)

Democratic AI: 強化学習を用いた human-in-the-loop pipelineによる再配分 

  • Human-centered mechanism design with Democratic AI [9.8]
    人間に好まれる社会メカニズムの設計に強化学習を用いるDemocratic AIと呼ばれるパイプラインを開発します。人間の好みを最適化することによって、民主的AIは、価値に合わせた政策革新の有望な方法になり得る。
    論文  参考訳(メタデータ)   (Thu, 27 Jan 2022 10:56:33 GMT)
    • オンライン投資ゲームにおける富の再配分メカニズムの設計に深層強化学習を利用、人間のレフェリーよりも好まれるメカニズムが作れたとの報告。
      • DeepMindっぽい面白い研究だと思った。人間の介入無しの“AI government”を指示しているわけではないことも強調されている。Potential limitations of Democratic AIにあるようなAIの限界に関する議論は興味深い。

FinRL-Meta: Deep reinforcement learning用の金融市場データ処理・シミュレーション環境

  • FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance [58.8]
    FinRL-Metaは、データ駆動型金融強化学習のための市場環境の宇宙を構築している。 まず、FinRL-MetaはDRLベースの戦略の設計パイプラインから財務データ処理を分離する。 FinRL-Metaは様々な取引タスクに数百の市場環境を提供している。FinRL-Metaは数千のGPUコアを活用することで、マルチプロセスシミュレーションとトレーニングを可能にする。 
    論文  参考訳(メタデータ)   (Mon, 13 Dec 2021 16:03:37 GMT)

Tell me why!: AI(強化学習エージェント)も説明から恩恵を受ける

  • Tell me why! — Explanations support learning of relational and causal structure [24.4]
    説明は人間の学習において重要な役割を担い、特にAIにとって大きな課題が残る分野においてである。 我々は、強化学習エージェントが説明の恩恵を受ける可能性があることを示す。 我々の結果は、説明からの学習が強力な原則であり、より堅牢で一般的な機械学習システムのトレーニングに有望な道筋を提供することを示唆している。
    論文  参考訳(メタデータ)   (Wed, 8 Dec 2021 12:48:22 GMT)
    • 「説明」が強化学習のエージェントに恩恵を与えるかを検証した論文。エージェントは「説明」を予測することでその情報を取り入れるとの設定。「説明」はエージェントが簡単な特徴を好むバイアスの回避、あいまいな経験から分布外への一般化、因果構造を特定に効果があるとしている。

GameにおけるAIのサーベイ

  • AI in Games: Techniques, Challenges and Opportunities [40.9]
    Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。 本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
    論文  参考訳(メタデータ)   (Mon, 15 Nov 2021 09:35:53 GMT)
    • 碁のようなボードゲーム、テキサス・ホールデムのようなカードゲーム、FPS、リアルタイムストラテジーゲームと4種類のゲームとそのAIに関するサーベイ。ゲームは意思決定と密接に関わっており、応用範囲は広い印象。

EfficientZero: 高効率な強化学習

  • Mastering Atari Games with Limited Data [73.6]
    我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。 提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。 アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
    論文  参考訳(メタデータ)   (Sat, 30 Oct 2021 09:13:39 GMT)
  • DQNが2億フレームで到達する性能を、その500分の1のフレーム数で達成できる強化学習のアルゴリズム。
  • リポジトリはhttps://github.com/YeWR/EfficientZero/

未来のインターネットにおける Multi-Agent Reinforcement Learning

  • Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey [45.8]
    マルチエージェント強化学習(MARL)により、各ネットワークエンティティは環境だけでなく、他のエンティティのポリシーも観察することで、最適なポリシーを学ぶことができる。 MARLはネットワークエンティティの学習効率を大幅に向上させることができ、近年、新興ネットワークにおける様々な問題を解決するために使用されている。
    論文  参考訳(メタデータ)   (Tue, 26 Oct 2021 08:26:55 GMT)
    • 5Gやその先にあるようなネットワークでマルチエージェントな強化学習で何が必要か、どのような研究課題があるかをまとめたサーベイ。研究課題については既存アプローチが整理されており非常に勉強になる。