理由を説明するベンチマーク・モデル

  • e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.9]
    説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。 また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。 画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
    論文  参考訳(メタデータ)   (Sat, 8 May 2021 18:46:33 GMT)
    • 画像+自然言語の予測に対して、その理由を説明するためのデータセットとモデル。例えば、「人がぬいぐるみのライオンを抱えている画像」「男性はリアルなライオンを抱えている」「矛盾」という組み合わせに対し「説明:ぬいぐるみのライオンはリアルのライオンではない」がペアになっているよう。
    • https://github.com/maximek3/e-ViL