GEM(General Evaluation benchmark for Multimodal tasks):マルチモーダルなベンチマーク

  • GEM: A General Evaluation Benchmark for Multimodal Tasks [25.8]
    マルチモーダルタスクの総合評価ベンチマークとしてGEMを提案する。 GEMは、画像言語タスクのGEM-Iとビデオ言語タスクのGEM-Vからなる大規模な視覚言語ベンチマークである。 我々は,多言語マルチモーダル研究の発展を目指して,データセット,コード,ベースラインモデルをリリースする。
    論文  参考訳(メタデータ)   (Fri, 18 Jun 2021 03:14:13 GMT)
    • 視覚-言語のベンチマークデータセット、多言語で構成されていることも特徴。少なめだが日本語も入っている。
    • データ等は https://github.com/microsoft/GEM から参照可能。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です