- e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.9]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。 また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。 画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (Sat, 8 May 2021 18:46:33 GMT)- 画像+自然言語の予測に対して、その理由を説明するためのデータセットとモデル。例えば、「人がぬいぐるみのライオンを抱えている画像」「男性はリアルなライオンを抱えている」「矛盾」という組み合わせに対し「説明:ぬいぐるみのライオンはリアルのライオンではない」がペアになっているよう。
- https://github.com/maximek3/e-ViL