- GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.2]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。 すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 23 Jun 2022 14:38:38 GMT)- モジュール式で拡張可能な自然言語生成系タスクの評価インフラストラクチャの提案。論文公開時点では日本語を含むタスクは3つのよう。
- プロジェクトサイトはGEM (gem-benchmark.com)、GEM (GEM benchmark) (huggingface.co)だと思うのだが、全データが公開されているわけではない(?)