Automatic Essay Scoring(AES)システムの脆さの検証と保護モデル

  • AES Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.5]
    スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。BERT などのリッチなコンテキスト埋め込みを備えた “エンドツーエンド” モデルとして訓練されているにもかかわらず、Bag of Wordsのように振る舞うことを示唆している。これらの問題に対処するため過敏性と過大性を引き起こすサンプルを高精度で検出できる保護モデルを提案する。
    論文  参考訳(メタデータ)   (Fri, 24 Sep 2021 03:49:38 GMT)
    • Deep Learningを用いて文脈等も考慮する複雑なスコアリングモデルのはずが数個の単語に大きくスコアが影響されることがあるとの指摘。350単語のエッセイに3単語を追加することでスコアを50%変化させることができたとのこと。
    • 保護方法も提案しているとはいえ、このような問題を内包しているモデルが社会に受け入れられるかは謎。。。
      • 文脈すらとらえられるはずのDeep LearningモデルがBoWっぽく動くというのはそのようなこともあるんだろうなとは思う。特定の単語が採点基準上重要な事は人間による評価でもありがち。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です