GPT-3+人間のフィードバックを用いた再帰的な要約モデル

  • Recursively Summarizing Books with Human Feedback [10.1]
    本論では,小説全体の抽象的要約の課題について述べる。 タスクの小さな部分でトレーニングされたモデルを使用して、より広範なタスクに対するフィードバックの提供を支援します。 書籍長要約のための最近のBookSumデータセットについて,最先端の成果を得た。
    論文  参考訳(メタデータ)   (Wed, 22 Sep 2021 17:34:18 GMT)
    • 本のセクションを要約、それらをさらに要約して本全体の要約を作成する方針の研究。それ自体はシンプルなアプローチだが、GPT-3(family)の使用、人間のラベラーのフィードバックを強化学習に利用など詳細な手法が興味深い。
    • 「We chose narrative fiction books due to our belief that they were the most difficult to summarize, which is supported by our later qualitative findings (Appendix J).」というのも面白い。ELYZA digestとかでも難しいとされていた気がする。

AI Economist: 強化学習を用いた課税モデルの検証

  • The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning [126.4]
    機械学習に基づく経済シミュレーションは強力な政策・メカニズム設計の枠組みであることを示す。 AIエコノミスト(AI Economist)は、エージェントと共同適応するソーシャルプランナーの両方を訓練する2段階のディープRLフレームワークである。 単純な一段階の経済では、AIエコノミストは経済理論の最適税制を再現する。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 17:42:35 GMT)
    • 深層強化学習を政策に取り入れられるかを検討・シミュレーションした研究。複雑な状況でも動作し、突発的な戦略的行動(≒節税的行動)があった場合も対応していくとのこと。現実に利用可能かはおいておいて興味深い研究だと思う。
    • ソースコードはhttps://github.com/salesforce/ai-economist、Salesforce Researchのhttps://einstein.ai/the-ai-economist関連のプロジェクト。
  • Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist [67.1]
    AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。 RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 01:30:41 GMT)
    • 関連する報告があったため追加。

SocialAI: 社会的スキルのためのベンチマーク

  • SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.7]
    人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。 人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。 DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
    論文  参考訳(メタデータ)   (Fri, 2 Jul 2021 10:39:18 GMT)
  • DRL(Deep Reinforcement Learning)のための社会的スキル獲得を評価するベンチマーク。Intertwinded multimodality、 Theory of Mind(ToM)、 Pragmatic framesといったソーシャルスキルに関連するタスクを設定。
  • 詳細はhttps://sites.google.com/view/socialaiから確認可能

強化学習を系列データに対するモデリングとして扱う

  • Reinforcement Learning as One Big Sequence Modeling Problem [84.8]
    強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。 我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
    論文  参考訳(メタデータ)   (Thu, 3 Jun 2021 17:58:51 GMT)
    • 強化学習を系列データのモデリング問題として扱うという論文。前回のものと同じ発想。前とは別グループっぽいので有用なアプローチなのかもしれない。

強化学習のタスクをTransformerで

  • Decision Transformer: Reinforcement Learning via Sequence Modeling [102.9]
    本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。 その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
    論文  参考訳(メタデータ)   (Wed, 2 Jun 2021 17:53:39 GMT)
    • 強化学習のタスクを言語モデル風に解くという論文。性能が良く、強化学習の一部にTransformerを使うというアーキテクチャでもないのが驚き。MLPで良いのでは?という論文も出ているが、やはりTransformerは優れた構造なのかなと思う。

クエリーベースのビデオ要約

  • DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization [127.2]
    DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。 DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。 MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
    論文  参考訳(メタデータ)   (Thu, 13 May 2021 17:33:26 GMT)
    • 究極的なマルチモーダルであると同時に、強化学習のフレームワークを利用して性能を出している点が興味深い。

ポリシー融合

  • Policy Fusion for Adaptive and Customizable Reinforcement Learning Agents [137.9]
    異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。 事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。 これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
    論文  参考訳(メタデータ)   (Wed, 21 Apr 2021 16:08:44 GMT)
    • 主としてゲーム(NPCの動き)を対象にPolicyの融合を取り扱った論文。多様性を生み出す上では重要な気がする。