- A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.9]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。 本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (Thu, 16 Mar 2023 02:02:18 GMT) - Visualプロンプトによる計画作成。PLMをうまく使うためソフトプロンプトの形でデータを扱っているよう
- 言語モデルか?という感じの使い方もかなりうまく動く報告が多くて面白い。GPT-4ではマルチモーダル対応でもう少しうまく取り合変えそう(将来的にはTextlessNLPっぽく扱ったりするんだろうか。)