IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク

IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
論文参考訳（メタデータ） (Thu, 27 Jan 2022 18:53:22 GMT)
- 画像＋言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
- 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念（翻訳モデル開発者としてはうれしいが、未来感がない）
- プロジェクトサイトはHome | IGLUE (iglue-benchmark.github.io)

コメントを残す

コメントを残す コメントをキャンセル