- Neural Machine Translation with Phrase-Level Universal Visual Representations [11.1]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。 提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。 実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (Sat, 19 Mar 2022 11:21:13 GMT)- 文-画像のペアを用いた機械翻訳ではなくフレーズレベルでテキストと画像を紐づけることでデータの少なさとスパースさを改善したニューラル機械翻訳の提案。Multi30kなどで優れた性能を達成とのこと。
- リポジトリはGitHub – ictnlp/PLUVR: Code for ACL 2022 main conference paper “Neural Machine Translation with Phrase-Level Universal Visual Representations”.