大規模言語モデルにおけるショートカットのサーベイ

Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey [119.5]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。これは彼らのアウト・オブ・ディストリビューション(OOD)と敵の堅牢性を著しく損なう。
論文参考訳（メタデータ） (Thu, 25 Aug 2022 03:51:39 GMT)
- 大規模言語モデルにはロバストでない特徴量を学習（shortcut learning）した結果がふくまれOODなデータに対して性能劣化が著しい。このようなshortcut learning問題をサーベイした論文。
- 機械翻訳などにおいても悩ましい問題であるが緩和策へのポインタも示されていて参考になる。
  - 論文でも触れられているが、まずは性能が著しく減少しているかの正しいテストが重要だと思う。

コメントを残す

コメントを残す コメントをキャンセル