コンテンツへスキップ
- GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.9]
GPT-4Vは,テキストプランを手作業でWebサイト上で動作させると,ライブWebサイトのタスクの50%を完了できることを示す。 これは GPT-4 のようなテキストのみの LLM や、Web エージェント用に微調整されたより小さなモデルよりも大幅に優れている。 本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用する汎用WebエージェントであるSEEACTを提案する。
論文 参考訳(メタデータ) (Wed, 3 Jan 2024 08:33:09 GMT)
- 複数の研究機関から出ている通り、GPT-4VのようなマルチモーダルなLLMでWebエージェントができそうな雰囲気。
- プロジェクトサイトはSeeAct (osu-nlp-group.github.io)
- How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation [49.2]
我々は,AIエージェントの信頼性を評価するための2つの指標,一貫性と堅牢性,およびベンチマークであるSimulateBenchを紹介する。 エージェント (i) が長文入力を提示した場合の文字情報の正確な描写に苦慮していること, (ii) プロファイルの摂動に対する脆弱性を示すこと, (iii) 全体としての信頼性に影響を及ぼす重要な要因に大きく影響していること,などが判明した。
論文 参考訳(メタデータ) (Thu, 28 Dec 2023 16:51:11 GMT)
- AIエージェントの一貫性(Consistency )と頑健性(Robustness )を計測するベンチマークの提案。一貫性、がん形成の定義は「Consistency measures whether the LLMs’ generated human behavior accurately depicts the identity information; Robustness measures whether the generated human behavior will be influenced by the perturbation in the profile.」とのこと
- リポジトリはhttps://github.com/GAIR-NLP/GPTMan
- ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.5]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。 エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。 引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (Fri, 15 Dec 2023 18:20:15 GMT)
- Reinforced Self-Training (ReST) を適用したReAct-style LLM agentの提案。ReAct的な動くで作ったtrajectoryのうち良いものを使ってfull fine-tuningとかなりの計算量が必要そうな手法。 少ない回数のイテレーションで良い性能を出せるとのこと。
- 「employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation.」とあるが、自分で学んでいけるAIがてきつつあるんじゃないかという気もする。
- TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems [25.9]
本稿では,大規模言語モデル(LLM)のタスク計画・ツール利用(TPTU)能力の向上を目的とした包括的フレームワークを提案する。 このフレームワークは、これらの課題に対処するために設計された3つの重要なコンポーネントで構成されている。(1) API Retrieverは、利用可能な広範囲な配列の中で、ユーザタスクに最も関連するAPIを選択し、(2) LLM Finetunerは、タスク計画とAPI呼び出しにより適するように、ベースLSMをチューニングし、(3)Demo Selectorは、難しいAPIに関連するさまざまなデモを適応的に検索する。
論文 参考訳(メタデータ) (Sun, 19 Nov 2023 12:37:30 GMT)
- TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents – arXiv最新論文の紹介 (devneko.jp)のv2、3ヶ月で更新という今のスピード感。
- API Retriever、LLM Finetuner、Demo Selectorからなる構成、ToolBenchの結果は高いように思えるが詳細な情報が欲しいところ。。
- Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents [121.5]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。 具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。 PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (Wed, 1 Nov 2023 03:20:16 GMT)
- Plug-and-Play Dialogue Policy Planner (PPDPP)の提案、よくあるプロンプトベースのものより高性能とのこと。
- リポジトリはhttps://github.com/dengyang17/PPDPPとのことだが、現時点では404