GEMv2: Multilingual NLG Benchmarking

  • GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.2]
    Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。 すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 23 Jun 2022 14:38:38 GMT)
    • モジュール式で拡張可能な自然言語生成系タスクの評価インフラストラクチャの提案。論文公開時点では日本語を含むタスクは3つのよう。
    • プロジェクトサイトはGEM (gem-benchmark.com)GEM (GEM benchmark) (huggingface.co)だと思うのだが、全データが公開されているわけではない(?)

財務質問回答(FinQA)に対するモデルアンサンブル

  • A Numerical Reasoning Question Answering System with Fine-grained Retriever and the Ensemble of Multiple Generators for FinQA [53.6]
    本稿では,財務テキストと表データソース間の数値推論質問に答える数値推論質問応答システムを提案する。 検索モジュールにおいて、生成モジュールの入力に無関係で類似のセルを同じ行に持ってくるのを避けるため、金のセルを検索するセルレトリバーを革新的に設計する。 アンサンブルモジュールでは,システム出力として最適なプログラムを選択するために複数のプログラムを統合する。
    論文  参考訳(メタデータ)   (Fri, 17 Jun 2022 01:55:29 GMT)
    • FinQAに対して複数のモジュール(アンサンブル)を適用、スコア: 69.79 を達成したとの報告。
      • FinQANet(RoBERTa Large)を大幅に上回るスコアだがやはり難しいタスクとの感想。