Vision Checklist: 堅牢性評価のためのチェックリスト

  • Vision Checklist: Towards Testable Error Analysis of Image Models to Help System Designers Interrogate Model Capabilities [26.2]
    Vision Checklistは、堅牢性評価のためにシステムデザイナが使用可能なレポートを生成するために、モデルの能力を疑うためのフレームワークである。 我々のフレームワークは、Tinyimagenet、CIFAR10、CIFAR100、Camelyon17のような複数のデータセットと、ViTやResnetのようなモデルで評価されている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 27 Jan 2022 17:20:16 GMT)
    • 画像系モデルの堅牢性を評価するフレームワークの提案。論文中の「Due to the high uncertainty in deployment environments, measures based on a small set of hold-out data are not enough for model evaluation.」という指摘の通り、テストセットによる評価だけでは社会実装には不十分でモデルの能力を疑う(限界を知っておく)のはとても重要。
    • ソースコードなどは公開予定とのこと。

顔検出における学術モデルと商用モデルの比較

  • Are Commercial Face Detection Models as Biased as Academic Models? [64.7]
    我々は学術的および商業的な顔検出システムを比較し、特にノイズに対する堅牢性について検討する。 最新の学術的顔検出モデルでは, 高齢者や男性的に性別を呈示する人に対して, 統計的に有意なパフォーマンス低下がみられ, ロバスト性に差があることが判明した。 商用モデルは、常に学術モデルと同じくらいの偏り、あるいはより偏りがある、と結論付けます。
    論文  参考訳(メタデータ)   (Tue, 25 Jan 2022 02:21:42 GMT)
    • Face Detectionタスクの頑健性についてでアカデミックなモデルと商用のモデルを比較、商用モデルが明確に優れているとは言えないと指摘した論文。
    • テクノロジーは似ているわけでそうだろうなと思いつつ、商用モデルの方が(fairnessなど重要な問題につながる)頑健性には気を使うべきであるとは思う。