Vision-and-Language Navigation – arXiv最新論文の紹介

ProbES(Prompt-based Environmental Selfexploration): VLNを対象としたデータ合成

Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [84.0]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (Tue, 8 Mar 2022 11:01:24 GMT)
最近よく見かける事前学習モデルからデータを作るという方針をVLNに適用した報告。画像と自然言語の紐づけにはCLIPを使用とのこと。
リポジトリはGitHub – liangcici/Probes-VLN

MTVM(Multimodal Transformer with Variable-length Memory)を用いたナビゲーション

Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (Wed, 10 Nov 2021 16:04:49 GMT)
- VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。