Automatic Essay Scoring – arXiv最新論文の紹介

AES Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.5]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。BERT などのリッチなコンテキスト埋め込みを備えた “エンドツーエンド” モデルとして訓練されているにもかかわらず、Bag of Wordsのように振る舞うことを示唆している。これらの問題に対処するため過敏性と過大性を引き起こすサンプルを高精度で検出できる保護モデルを提案する。
論文参考訳（メタデータ） (Fri, 24 Sep 2021 03:49:38 GMT)
- Deep Learningを用いて文脈等も考慮する複雑なスコアリングモデルのはずが数個の単語に大きくスコアが影響されることがあるとの指摘。350単語のエッセイに3単語を追加することでスコアを50%変化させることができたとのこと。
- 保護方法も提案しているとはいえ、このような問題を内包しているモデルが社会に受け入れられるかは謎。。。
  - 文脈すらとらえられるはずのDeep LearningモデルがBoWっぽく動くというのはそのようなこともあるんだろうなとは思う。特定の単語が採点基準上重要な事は人間による評価でもありがち。

タグ: Automatic Essay Scoring