理由を説明するベンチマーク・モデル

e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.9]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (Sat, 8 May 2021 18:46:33 GMT)
- 画像＋自然言語の予測に対して、その理由を説明するためのデータセットとモデル。例えば、「人がぬいぐるみのライオンを抱えている画像」「男性はリアルなライオンを抱えている」「矛盾」という組み合わせに対し「説明：ぬいぐるみのライオンはリアルのライオンではない」がペアになっているよう。
- https://github.com/maximek3/e-ViL

コメントを残す

コメントを残す コメントをキャンセル