Vision Checklist: 堅牢性評価のためのチェックリスト

  • Vision Checklist: Towards Testable Error Analysis of Image Models to Help System Designers Interrogate Model Capabilities [26.2]
    Vision Checklistは、堅牢性評価のためにシステムデザイナが使用可能なレポートを生成するために、モデルの能力を疑うためのフレームワークである。 我々のフレームワークは、Tinyimagenet、CIFAR10、CIFAR100、Camelyon17のような複数のデータセットと、ViTやResnetのようなモデルで評価されている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 27 Jan 2022 17:20:16 GMT)
    • 画像系モデルの堅牢性を評価するフレームワークの提案。論文中の「Due to the high uncertainty in deployment environments, measures based on a small set of hold-out data are not enough for model evaluation.」という指摘の通り、テストセットによる評価だけでは社会実装には不十分でモデルの能力を疑う(限界を知っておく)のはとても重要。
    • ソースコードなどは公開予定とのこと。

顔検出における学術モデルと商用モデルの比較

  • Are Commercial Face Detection Models as Biased as Academic Models? [64.7]
    我々は学術的および商業的な顔検出システムを比較し、特にノイズに対する堅牢性について検討する。 最新の学術的顔検出モデルでは, 高齢者や男性的に性別を呈示する人に対して, 統計的に有意なパフォーマンス低下がみられ, ロバスト性に差があることが判明した。 商用モデルは、常に学術モデルと同じくらいの偏り、あるいはより偏りがある、と結論付けます。
    論文  参考訳(メタデータ)   (Tue, 25 Jan 2022 02:21:42 GMT)
    • Face Detectionタスクの頑健性についてでアカデミックなモデルと商用のモデルを比較、商用モデルが明確に優れているとは言えないと指摘した論文。
    • テクノロジーは似ているわけでそうだろうなと思いつつ、商用モデルの方が(fairnessなど重要な問題につながる)頑健性には気を使うべきであるとは思う。

Attentionは説明に使用できない

  • Attention cannot be an Explanation [99.4]
    私たちは、人間の信頼と信頼を高める上で、注意に基づく説明がどの程度効果的か尋ねる。 我々は,注意に基づく説明が適している程度を質的かつ定量的に評価することを目的とした広範囲な人間実験を行った。 実験の結果,注意は説明として利用できないことが明らかとなった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 26 Jan 2022 21:34:05 GMT)
    • 人間の評価結果をもとにAttention(モデルが注視している部分の表示によって説明しようするタイプの手法)は説明に使用できないと結論した論文。様々な立場がありうるが一つの結果として注意すべきと思う。

MILAN(Mutual-Information-guided Linguistic Annotation of Neurons)を用いたニューロンの可視化と編集

  • Natural Language Descriptions of Deep Visual Features [50.3]
    自然言語による記述で自動的にニューロンをラベル付けする手法を提案する。 我々はMILANを用いて、視覚モデルにおける属性、カテゴリ、関係情報を選択的に選択したニューロンの分布と重要性を特徴付ける。 また、これらの特徴を曖昧にすることを目的としたデータセットでトレーニングされたモデルにおいて、人種や性別といった保護されたカテゴリに敏感な、監査用のMILANも使用しています。
    論文  参考訳(メタデータ)   (Wed, 26 Jan 2022 18:48:02 GMT)
    • ネットワーク上のニューロンの属性を言語化(自然言語での説明)でき、それを編集可能という論文。
      • XAIの文脈で説明を自然言語へ帰着するのはイマイチかなと思っていたが、監査や編集という面では良いのかもしれない。

Democratic AI: 強化学習を用いた human-in-the-loop pipelineによる再配分 

  • Human-centered mechanism design with Democratic AI [9.8]
    人間に好まれる社会メカニズムの設計に強化学習を用いるDemocratic AIと呼ばれるパイプラインを開発します。人間の好みを最適化することによって、民主的AIは、価値に合わせた政策革新の有望な方法になり得る。
    論文  参考訳(メタデータ)   (Thu, 27 Jan 2022 10:56:33 GMT)
    • オンライン投資ゲームにおける富の再配分メカニズムの設計に深層強化学習を利用、人間のレフェリーよりも好まれるメカニズムが作れたとの報告。
      • DeepMindっぽい面白い研究だと思った。人間の介入無しの“AI government”を指示しているわけではないことも強調されている。Potential limitations of Democratic AIにあるようなAIの限界に関する議論は興味深い。

Whose Language Counts as High Quality?

  • Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection [83.4]
    より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。  フィルタの質測定が,事実性や文学的評価といった他の感性指標と一致しないことを実証する。 高品質なコーパスを特権化することは言語イデオロギーを伴い,言語モデルのためのトレーニングコーパスの構築にはもっと注意が必要である,と我々は主張する。
    論文  参考訳(メタデータ)   (Wed, 26 Jan 2022 18:46:26 GMT)
    • テキストをフィルタリングし高品質化することは大規模事前学習の前処理として一般的に行われている。現状は裕福な人が書いた(立場の強い人が書いた)テキストがその実態以上に高品質と判定されており、暗黙的な不平等につながる危険があるとの指摘。
    • fugumtのフィルタリングルールでもドメイン名(第二レベルドメインなど)を大きな手掛かりとしており危険性を内包している可能性が高い。鋭い指摘だと思った。
    • リポジトリはGitHub – kernelmachine/quality-filter: Code for “Whose language is high quality?” paper

Table Pretraining: 表形式を扱うフレームワークのサーベイ

  • Table Pretraining: A Survey on Model Architectures, Pretraining Objectives, and Downstream Tasks [37.4]
    テキストや画像の成功を受けて、テーブル事前学習フレームワークの急激な普及が提案されている。 表の事前訓練は通常、表とテキストの合同の事前訓練の形式を取る。 この調査は、異なるモデル設計の包括的なレビュー、事前学習の目的、およびテーブル事前学習のための下流タスクを提供することを目的としている。
    論文  参考訳(メタデータ)   (Mon, 24 Jan 2022 15:22:24 GMT)
    • 表やテキスト構造へのDeep Learning適用のサーベイ。table question answeringやtable type recognitionといった表を含むドメインの問題やテーブルデータへのDeep Learning適用(TabTransformerやSAINT)が対象になっている。
    • この分野を概観するには良いが詳細を知るには挙げられた論文を読む必要がありそう。

WebUAV-3M: 大規模UAV追跡ベンチマーク

  • WebUAV-3M: A Benchmark Unveiling the Power of Million-Scale Deep UAV Tracking [40.8]
    WebUAV-3Mは100万スケールの無人航空機(UAV)追跡ベンチマークである。 われわれは、インターネットから3Mフレーム以上の4,485本のビデオを集めている。 WebUAV-3Mは、公的なUAV追跡ベンチマークとしては最大である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 19 Jan 2022 05:39:42 GMT)
    • 大規模なUAV Tracking(無人航空機から撮影された映像を使って物体を追跡するタスク)データセット・ベンチマーク。

Video Transformerのサーベイ

  • Video Transformers: A Survey [42.3]
    ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。 具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。 また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
    論文  参考訳(メタデータ)   (Sun, 16 Jan 2022 07:31:55 GMT)
    • 動画処理にもTransformerが使われていることがよくわかるサーベイ

ExtraPhrase: 抽象型要約のためのデータ拡張(extractive + paraphrasing)

  • ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization [27.9]
    ExtraPhraseは2つのステップで擬似トレーニングデータを構築する。 ROUGEスコアにおいて,ExtraPhraseは抽象的な要約タスクの性能を0.50ポイント以上向上することを示す。 また,実際のトレーニングデータの量が著しく少ない場合,ExtraPhraseは極めて有効であることを示す。
    論文  参考訳(メタデータ)   (Fri, 14 Jan 2022 06:14:34 GMT)
    • 抽出型要約と言い換えを用いて抽象型要約のための合成データを作るというアプローチ。データ数が少ない場合に特に有効とのこと。
    • 抽象型要約のデータは高価なので有効そうな場面はありそう。