MTVM(Multimodal Transformer with Variable-length Memory)を用いたナビゲーション

  • Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
    VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。 近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。 視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
    論文  参考訳(メタデータ)   (Wed, 10 Nov 2021 16:04:49 GMT)
    • VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です