Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance
Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance [39.6] 大規模言語モデル(LLM)エージェントは、しばしばルールや必要なドメイン知識が頻繁に変化する環境で苦労する。 テスト時に更新されたドメイン知識を継続的に学習するための適応反射型対話エージェント(ARIA)を提案する。 ARIAはTikTok Pay内にデプロイされ、月間アクティブユーザ数は1億5000万を超えている。 論文参考訳(メタデータ) (Wed, 23 Jul 2025 02:12:32 GMT)
「ARIA addresses conventional model limitations in dynamic environments by as- sessing uncertainty via self-dialogue, soliciting expert corrections, and updating a timestamped, conflict-resolving knowledge base.」と記憶を通じた自己改善を行っていくフレームワークの提案。実際にデプロイされているのがすごい。