EUREKA:  Evolution-driven Universal REward Kit for Agent

  • Eureka: Human-Level Reward Design via Coding Large Language Models [126.0]
    大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。 LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。 Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
    論文  参考訳(メタデータ)   (Thu, 19 Oct 2023 17:31:01 GMT)
  • LLMを用いた reward design algorithm の提案。性能は人間レベルとのことであり、「EUREKA can improve and benefit from human reward functions.」とのこと。強化学習を利用する場合に難しい部分をサポートできる可能性がある。
  • プロジェクトサイトはEureka | Human-Level Reward Design via Coding Large Language Models (eureka-research.github.io)

Dynalang

  • Learning to Model the World with Language [98.2]
    我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
    論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 17:57:49 GMT)
  • エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
  • プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)

Language Models Meet World Models

  • Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
    大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。 我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 00:35:38 GMT)
  • 世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ(VirtualHome)を用いてより広い情報を集めるアプローチで大変興味深い。
  • 重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors & elastic weight consolidationのEWC-LoRAという手法を用いているそう。

MoCa: Momentum Calibration

  • Momentum Calibration for Text Generation [86.6]
    テキスト生成のためのMoCa(Momentum Calibration)を提案する。 MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 13:12:10 GMT)
  • テキスト生成時のビームサーチ部分を強化学習的な手法で改善するという研究。
  • CNN/DMでの結果が非常に高い

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback

  • Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.3]
    人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。 ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
    論文  参考訳(メタデータ)   (Mon, 21 Nov 2022 16:00:31 GMT)
  • DeepMindによる全部入り強化学習のような論文。 “Inter-temporal Bradley-Terry” (IBT) modellingにより人間の判断をキャプチャする報酬モデルを構築できたとのこと。
    • 時間的な軌跡を考慮している点が特徴なのだろうか?
  • ビデオが公開されているImproving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback – YouTube

深層強化学習: 20分間で公園内の四足歩行を学習

  • A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free Reinforcement Learning [86.1]
    深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。 機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界で20分で学習できる。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 17:37:36 GMT)
    • (4足歩行とはいえ)既存研究を組み合わせることで現実環境の歩行を20分で学習可能という報告。
      • 昔の苦労から考えるとすごい進化

Traveling Salesperson Problem + 深層強化学習

AFK(Asking for Knowledge): 質問をする強化学習

  • Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language [121.6]
    グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。 本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
    論文  参考訳(メタデータ)   (Thu, 12 May 2022 14:20:31 GMT)
    • 外部知識にクエリーが可能な強化学習エージェントの提案。実行環境を作ったうえで有効性を確認している。
      • エージェントと環境を仲介するのが自然言語であるのが興味深い。
    • プロジェクトサイトはAFK (ioujenliu.github.io)

Democratic AI: 強化学習を用いた human-in-the-loop pipelineによる再配分 

  • Human-centered mechanism design with Democratic AI [9.8]
    人間に好まれる社会メカニズムの設計に強化学習を用いるDemocratic AIと呼ばれるパイプラインを開発します。人間の好みを最適化することによって、民主的AIは、価値に合わせた政策革新の有望な方法になり得る。
    論文  参考訳(メタデータ)   (Thu, 27 Jan 2022 10:56:33 GMT)
    • オンライン投資ゲームにおける富の再配分メカニズムの設計に深層強化学習を利用、人間のレフェリーよりも好まれるメカニズムが作れたとの報告。
      • DeepMindっぽい面白い研究だと思った。人間の介入無しの“AI government”を指示しているわけではないことも強調されている。Potential limitations of Democratic AIにあるようなAIの限界に関する議論は興味深い。

FinRL-Meta: Deep reinforcement learning用の金融市場データ処理・シミュレーション環境

  • FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance [58.8]
    FinRL-Metaは、データ駆動型金融強化学習のための市場環境の宇宙を構築している。 まず、FinRL-MetaはDRLベースの戦略の設計パイプラインから財務データ処理を分離する。 FinRL-Metaは様々な取引タスクに数百の市場環境を提供している。FinRL-Metaは数千のGPUコアを活用することで、マルチプロセスシミュレーションとトレーニングを可能にする。 
    論文  参考訳(メタデータ)   (Mon, 13 Dec 2021 16:03:37 GMT)