Automatic Essay Scoring(AES)システムの脆さの検証と保護モデル

  • AES Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.5]
    スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。BERT などのリッチなコンテキスト埋め込みを備えた “エンドツーエンド” モデルとして訓練されているにもかかわらず、Bag of Wordsのように振る舞うことを示唆している。これらの問題に対処するため過敏性と過大性を引き起こすサンプルを高精度で検出できる保護モデルを提案する。
    論文  参考訳(メタデータ)   (Fri, 24 Sep 2021 03:49:38 GMT)
    • Deep Learningを用いて文脈等も考慮する複雑なスコアリングモデルのはずが数個の単語に大きくスコアが影響されることがあるとの指摘。350単語のエッセイに3単語を追加することでスコアを50%変化させることができたとのこと。
    • 保護方法も提案しているとはいえ、このような問題を内包しているモデルが社会に受け入れられるかは謎。。。
      • 文脈すらとらえられるはずのDeep LearningモデルがBoWっぽく動くというのはそのようなこともあるんだろうなとは思う。特定の単語が採点基準上重要な事は人間による評価でもありがち。

CPT(Cross-modal Prompt Tuning / Colorful Prompt Tuning):画像/言語のプロンプトチューニング

  • CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5]
    我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。 CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。 総合的な実験結果から、VL-PTM(Pre-Trained Vision-Language Models)のプロンプトチューニングは、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
    論文  参考訳(メタデータ)   (Fri, 24 Sep 2021 08:07:29 GMT)
    • 「画像中の参照領域を特定の色で塗りつぶす」+「テキスト部分にも対応する色を入れる」ことにより画像とテキストを結びつける事でvisual grounding問題を穴埋め問題に再構成しプロンプトを実現(論文の図を見るのが分かりやすい)。Few-shotとZero-shotの設定ではfine tuningを上回る性能とのこと。
      • 本当にできるのか?と思うくらい面白い成果。
    • データとコードが公開されるとのことで詳細はそれを確認したい。