What’s the Meaning of Superhuman Performance in Today’s NLU?

  • What’s the Meaning of Superhuman Performance in Today’s NLU? [145.8]
    我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。 より公平で透過的なベンチマークのためのレコメンデーションを提供します。
    論文  参考訳(メタデータ)   (Mon, 15 May 2023 07:48:31 GMT)
  • ベンチマークの限界を指摘した論文。6 Recommendationsの章はAIの限界や正しい評価とは?について確認するためにも良い整理。アノテートについて「What is their hourly pay rate?」という指摘は結構くるものがある。何かを評価しようとするなら、データ品質はとても重要。