m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.3] マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。 本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。 実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。 論文参考訳(メタデータ) (Tue, 26 Mar 2024 10:04:24 GMT)
「we introduce visual context as the universal language-independent representation to facilitate multilingual translation.」が実現できそうであることが感慨深い。結果からも一定程度の効果が出ていそう。