LLMs Are In-Context Reinforcement Learners

  • LLMs Are In-Context Reinforcement Learners [30.2]
    大規模言語モデル(LLM)は、コンテキスト内教師あり学習(ICL)を通じて新しいタスクを学習することができる。 この研究は、この能力が文脈内強化学習(ICRL)にまで拡張されるかどうかを研究する。 本稿では、テスト時間計算の増加と計算バウンド近似により、この欠陥に対処するアルゴリズムを提案する。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 17:45:00 GMT)
  • 「ICRL is a natural combination of ICL and reinforcement learning (RL).Instead of constructing the LLM context from supervised input-output pairs, the LLM context is constructed using triplets consisting of input, model output prediction, and the corresponding rewards.」というスタイルのインコンテキスト強化学習の提案。ナイーブな実装がうまくいかないのが興味深い。「Its poor performance is due to its incapacity to explore the output space.」とのこと。
  • プロジェクトサイトはLLMs Are In-Context Reinforcement Learners (lil-lab.github.io)

A Survey on In-context Learning 

  • A Survey on In-context Learning [77.8]
    In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。 まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。 次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 02:55:06 GMT)
  • In-context learningのサーベイ

Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement

  • Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.9]
    G”odel AgentはG”odelマシンにインスパイアされた自己進化型フレームワークである。 G”odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
    論文  参考訳(メタデータ)   (Sun, 06 Oct 2024 10:49:40 GMT)
  • 「we introduce G¨odel Agent, a self-evolving framework inspired by the G¨odel machine, enabling agents to recursively improve themselves without relying on predefined routines or fixed optimization algorithms.」と自己改善していけるエージェントを提案、効果を確認とのこと。エージェント的改善を行っていくフレームワークでLLM自体を改善するような実装ではなさそう。
  • 「Currently, G¨odel Agent is not sufficiently stable and may be prone to error accumulation, hindering its ability to continue self-optimization.」とのことではあるが、この手の研究が進んでいくのは未来を感じる。
  • リポジトリはGitHub – Arvid-pku/Godel_Agent: Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement