2021年6月21日 – arXiv最新論文の紹介

X-FACT: マルチリンガルなファクトチェッキング用データセット

X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.3]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文参考訳（メタデータ） (Thu, 17 Jun 2021 05:09:54 GMT)
- ファクトチェッキングのためのデータセット。データ数は31,189とこの手のデータにしては大きい。言語を超えてのファクトチェックは実用上とても重要である。残念ながらデータセットに日本語は含まれていないよう。
- データやコードはhttps://github.com/utahnlp/x-factで参照可能

Learning to Predict Visual Attributes in the Wild [43.9]
260K以上のオブジェクトインスタンスに対して,927K以上の属性アノテーションからなる大規模なウィジェット内属性予測データセットを導入する。本稿では,低レベルCNN機能と高レベルCNN機能の両方を利用するベースモデルを含む,これらの課題に体系的に対処する手法を提案する。これらの技術を用いることで,現状よりも3.7mAP,5.7ポイントのF1点が向上した。
論文参考訳（メタデータ） (Thu, 17 Jun 2021 17:58:02 GMT)
- 大規模な画像系データセット。VAWは現実的な属性予測だけでなく「限られたラベル」「データの不均衡」「アウトオブディストリビューションなテスト」「バイアス関連の問題」などを含むロングテールなマルチラベル予測タスクの汎用テストとしても重要なベンチマークとして機能すると考えている。とのこと。
- http://vawdataset.com/　にデータ等が存在

Indian Masked Faces in the Wild Dataset [86.8]
本研究では,ポーズ,照明,解像度,被検者の着用するマスクの多様さを特徴とする,IMFWデータセットを新たに提案する。また,提案したIMFWデータセットにおいて,既存の顔認識モデルの性能をベンチマークした。
論文参考訳（メタデータ） (Thu, 17 Jun 2021 17:23:54 GMT)
- COVID-19で重要になったマスクをした状況での顔認識。既存の顔認識モデルだといろいろな限界があるとのこと。
- データなどはhttp://www.iab-rubric.org/resources/imfw.htmlから参照可能。

Poisoning and Backdooring Contrastive Learning [26.1]
CLIPのような対照的な学習方法は、ノイズの多いデータセットと未処理のデータセットでトレーニングする。この慣行がバックドアや毒殺を重大な脅威にしていることを示す。
論文参考訳（メタデータ） (Thu, 17 Jun 2021 17:20:45 GMT)
- ノイジーなラベル無しデータでのContrastive Learningに対して非常に少数の事例を用いて攻撃が可能との報告。特定の入力に対する誤分類であればデータセットの0.0001%を制御することによって可能とのこと。
- 論文中に記載された通り防御手段も存在するがインターネットからデータを集めてきての学習はリスクがある。