- GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.9]
GPT-4Vは,テキストプランを手作業でWebサイト上で動作させると,ライブWebサイトのタスクの50%を完了できることを示す。 これは GPT-4 のようなテキストのみの LLM や、Web エージェント用に微調整されたより小さなモデルよりも大幅に優れている。 本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用する汎用WebエージェントであるSEEACTを提案する。
論文 参考訳(メタデータ) (Wed, 3 Jan 2024 08:33:09 GMT) - 複数の研究機関から出ている通り、GPT-4VのようなマルチモーダルなLLMでWebエージェントができそうな雰囲気。
- プロジェクトサイトはSeeAct (osu-nlp-group.github.io)