- What’s the Meaning of Superhuman Performance in Today’s NLU? [145.8]
我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。 より公平で透過的なベンチマークのためのレコメンデーションを提供します。
論文 参考訳(メタデータ) (Mon, 15 May 2023 07:48:31 GMT) - ベンチマークの限界を指摘した論文。6 Recommendationsの章はAIの限界や正しい評価とは?について確認するためにも良い整理。アノテートについて「What is their hourly pay rate?」という指摘は結構くるものがある。何かを評価しようとするなら、データ品質はとても重要。