- WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.3]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。 我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。 このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 16:11:49 GMT) - 多言語、大規模なVQAデータセット
- リポジトリはGitHub – worldcuisines/worldcuisines: WorldCuisines is an extensive multilingual and multicultural benchmark that spans 30 languages, covering a wide array of global cuisines.、リーダーボードはWorldCuisines – a Hugging Face Space by worldcuisines
- 今川焼のような議論が沸き起こるデータは少なめかもしれないのと、ノイズもそこそこ入っているように見受けられる。