コンテンツへスキップ
- The Value of Out-of-Distribution Data [28.9]
実際のデータセットは、アウト・オブ・ディストリビューション(OOD)データを含むことができる。 このような問題に対する反直観的な現象を実証する。 いずれのサンプルがOODであるかを知ると、重み付けされた目的を用いることで、一般化誤差が単調に減少することを示す。
論文 参考訳(メタデータ) (Tue, 23 Aug 2022 13:41:01 GMT)- 直感的にはOut-of-Distributionなデータは汎化のために有効であるが一定以上あると有害になりうる。その関係を調べた論文。
- Out-of-Distributionなデータの認識ができれば適切な学習が可能という(直感に反しない)結果
- すぐに使えるわけではない(実運用では未知な情報があるという現実と論文における各種定義の対比が必要)とはいえ、この手の研究は面白い
- Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey [119.5]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。 予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。 これは彼らのアウト・オブ・ディストリビューション(OOD)と敵の堅牢性を著しく損なう。
論文 参考訳(メタデータ) (Thu, 25 Aug 2022 03:51:39 GMT)- 大規模言語モデルにはロバストでない特徴量を学習(shortcut learning)した結果がふくまれOODなデータに対して性能劣化が著しい。このようなshortcut learning問題をサーベイした論文。
- 機械翻訳などにおいても悩ましい問題であるが緩和策へのポインタも示されていて参考になる。
- 論文でも触れられているが、まずは性能が著しく減少しているかの正しいテストが重要だと思う。
- Bugs in the Data: How ImageNet Misrepresents Biodiversity [99.0]
ImageNet-1k検証セットで野生動物を表す269のクラスから13450の画像を解析した。 多くのクラスが未定義あるいは重複しており、画像の12%が誤ってラベル付けされていることがわかった。 また,ImageNet-1kに含まれる野生生物関連ラベルと画像の両方が,地理的,文化的に有意な偏見を呈していることがわかった。
論文 参考訳(メタデータ) (Wed, 24 Aug 2022 17:55:48 GMT)- 非常に良く用いられているImageNet-1kに問題のあるクラス付けがあるという指摘。12%はモデル品質に影響を与えるレベルに思う。このような検証はとても大事。