What’s the Meaning of Superhuman Performance in Today’s NLU?

What’s the Meaning of Superhuman Performance in Today’s NLU? [145.8]
我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。より公平で透過的なベンチマークのためのレコメンデーションを提供します。
論文参考訳（メタデータ） (Mon, 15 May 2023 07:48:31 GMT)
ベンチマークの限界を指摘した論文。6 Recommendationsの章はAIの限界や正しい評価とは？について確認するためにも良い整理。アノテートについて「What is their hourly pay rate?」という指摘は結構くるものがある。何かを評価しようとするなら、データ品質はとても重要。

コメントを残す

コメントを残す コメントをキャンセル