NLPの深層学習モデルに対する解釈のサーベイ

  • Interpreting Deep Learning Models in Natural Language Processing: A Review [33.8]
    ニューラルネットワークモデルに対する長年にわたる批判は、解釈可能性の欠如である。 本研究では,NLPにおけるニューラルモデルに対する様々な解釈手法について概説する。
    論文  参考訳(メタデータ)   (Wed, 20 Oct 2021 10:17:04 GMT)
    • 自然言語処理のモデルに対する説明方法のサーベイ。「Training-based: 予測時に影響が強い学習インスタンスの識別」「Test-based: テストデータのどこが予測値に影響を与えているか識別」や「joint: 学習時に解釈性を両立させる」「post-hoc:学習したモデルに対して別途解釈性を付与する 」といった観点で説明手法を分類しており分かりやすい。
    • 「Is attention interpretable?」という問いと不明瞭であるという記載は同感で、私個人としてはAttentionをもってinterpretableと呼ぶには違和感がある。解釈性の文脈でAttentionの有用性に対する反論、それに対する再反論などのやり取りは非常に参考になる。

Automatic Essay Scoring(AES)システムの脆さの検証と保護モデル

  • AES Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.5]
    スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。BERT などのリッチなコンテキスト埋め込みを備えた “エンドツーエンド” モデルとして訓練されているにもかかわらず、Bag of Wordsのように振る舞うことを示唆している。これらの問題に対処するため過敏性と過大性を引き起こすサンプルを高精度で検出できる保護モデルを提案する。
    論文  参考訳(メタデータ)   (Fri, 24 Sep 2021 03:49:38 GMT)
    • Deep Learningを用いて文脈等も考慮する複雑なスコアリングモデルのはずが数個の単語に大きくスコアが影響されることがあるとの指摘。350単語のエッセイに3単語を追加することでスコアを50%変化させることができたとのこと。
    • 保護方法も提案しているとはいえ、このような問題を内包しているモデルが社会に受け入れられるかは謎。。。
      • 文脈すらとらえられるはずのDeep LearningモデルがBoWっぽく動くというのはそのようなこともあるんだろうなとは思う。特定の単語が採点基準上重要な事は人間による評価でもありがち。

Deep Learning モデルの説明にはインタラクティブ性が必要

  • Explainability Requires Interactivity [13.4]
    現代視覚モデルの高度に複雑な決定境界を理解するためのインタラクティブなフレームワークを導入する。 ユーザーはネットワークの決定を徹底的に検査し、調査し、テストすることができる。
    論文  参考訳(メタデータ)   (Thu, 16 Sep 2021 11:02:25 GMT)
    • 複雑なモデルに対して一見単純な「説明」を出すことは危険であり、インタラクティブなやり取りが必要であるとの論文。画像に対して重要個所のヒートマップを出すのではなく、入力画像をスタイル変換していくつかの画像を生成、その予測値を例示して判断を即すアプローチ。笑顔推定であれば「入力画像とほぼ同じだが肌や髪の色が異なる画像」のスコアが著しく低くなっていれば怪しいと感じることができる。
    • ヒートマップによる「説明」はそれっぽいが誤解しやすいのは確か。Talk-to-Editと組み合わせると面白いだろうなーと思う。

CX-ToM(Counterfactual eXplanations with Theory-of Mind): 反復的なXAI

  • CX-ToM: Counterfactual Explanations with Theory-of-Mind for Enhancing Human Trust in Image Recognition Models [84.3]
    我々は、深層畳み込みニューラルネットワーク(CNN)による決定を説明するための、新しい説明可能なAI(XAI)フレームワークを提案する。 単発応答として説明を生成するXAIの現在の手法とは対照的に,我々は反復的な通信プロセスとして説明を行う。 本フレームワークは,機械の心と人間の心の相違を媒介し,対話における説明文のシーケンスを生成する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 6 Sep 2021 07:00:34 GMT)
    • 対話型のXAIフレームワークの提案。AIとユーザのインタラクションを通して説明を行っていくとのことで、「①AIが画像をシマウマと認識」「②ユーザがなぜ馬でないか質問」「③AIは縞模様の画像を表示、ユーザの認識を確認」「④AIは縞模様を重視していると回答」という例が挙げられていた。SHAPやLIMEよりユーザからの信頼性度数と満足度の双方で優れていたとのこと。
      • 人間同士でもQAをしながらモデルの理解を深めるわけで自然なフレームワークに見える。一方で論文中にはちょくちょく手作業が入っていて汎用的に完全自動化できるのかは疑問。

AIモデルのFairness検証の実例

AI系手法(といっても一つはロジスティック回帰だが)の実例をFairnessの観点から分析した報告が出ていた。この手の話題はFairnessとは何か?の議論が重要で、実例をしっかりと扱った論文はとても勉強になる。

  • Fair Decision-Making for Food Inspections [3.4]
    本稿では,シカゴ市公衆衛生局によるレストラン検査の予測モデルの適用について再検討する。 本モデルでは,検査を行った正統性に基づいて,検査を不平等に扱うことが確認された。 我々は、オリジナルのモデルをより公平な方法で使用するためのアプローチと、公平性を達成するためのモデルのトレーニング方法の両方について検討する。
    論文  参考訳(メタデータ)   (Thu, 12 Aug 2021 04:17:39 GMT)
  • Fairness in Algorithmic Profiling: A German Case Study [0.0]
    本研究では、求職者の長期失業リスクを予測するための統計モデルを比較し、評価する。 これらのモデルは、競争力のある精度で長期失業を予測するために使用できることを示す。 異なる分類ポリシーは、非常に異なる公平性をもたらすことを強調する。
    論文  参考訳(メタデータ)   (Wed, 4 Aug 2021 13:43:42 GMT)

NLPにおける説明手法のサーベイ

  • Post-hoc Interpretability for Neural NLP: A Survey [11.8]
    本稿では,解釈可能性法がどのように説明を伝達するかを分類する。 この調査は、モデル学習後に説明を提供するポストホック手法に焦点を当てている。 このクラスのメソッドに共通する関心事は、モデルが正確に反映されているかどうかである。
    論文  参考訳(メタデータ)   (Tue, 10 Aug 2021 18:00:14 GMT)
    • 自然言語処理を対象にした説明性、解釈性を実現する手法のサーベイ。モチベーション、評価方法、手法の概要説明と非常に多くの手法を紹介している。この分野を振り返るうえで貴重な資料。

摂動入力によるNLPモデル解釈への影響

  • Perturbing Inputs for Fragile Interpretations in Deep Natural Language Processing [18.9]
    解釈可能性の手法は、医療や金融などの高い分野における信頼できるNLPアプリケーションにとって堅牢である必要がある。 本稿では,入力テキスト上で単純な単語摂動を行うことで,解釈がどのように操作できるかを示す。
    論文  参考訳(メタデータ)   (Wed, 11 Aug 2021 02:07:21 GMT)
    • 単語をスワップすることによってLIMEやINTEGRATED GRADIENTの解釈に影響を与えることができるかを検証した論文。解釈性へ影響を与えることが可能とのこと。
    • 「there has been little analysis of the reliability and robustness of the explanation techniques」という指摘は重要。

XAI(Explainable AI)とユーザの関係

  • The Who in Explainable AI: How AI Background Shapes Perceptions of AI Explanations [14.3]
    我々は、AIの背景と背景のない2つの異なるグループが、異なるタイプのAI説明を知覚する方法について、混合方法論による研究を行う。 私たちは、信頼、知性、理解可能性、第二のチャンス、友好性の5つの側面に沿って、知覚が何であるかを定量的に共有します。
    論文  参考訳(メタデータ)   (Wed, 28 Jul 2021 17:32:04 GMT)
    • AIに関するバックグラウンドの有無によってAIの説明の受け止め方が異なるかを検証した論文。疑似的なロボットをRationale-Generating(自然言語で詳細な動作理由を出力、きちんとした内容、以下RG)、Action-Declaring (動作のみを記載、説明ではない、以下AD)、 Numerical-Reasoning(数値のみを出力、理由とは言えない、以下NR)の3つ設定、どれが好まれるかを検証。AIのバックグラウンドのある人は基本的にRGを好むが、そうでないグループでは常にRGが好まれるとは限らない。ADとRGの好みに差があるなどグループ間で差異が存在。また本来説明になっていないAD、NRに価値を見出すこともあったとのこと。
      • 「AI group seemed to have an instinctual response to numerical values; they assumed that the numbers possess all the information needed to manipulate, diagnose, and reverse engineer.」というのは非常に重要(で怖い)指摘。
      • 説明が正しく機能するかはXAIの重要な部分でhttps://arxiv.org/abs/2006.14779のような指摘にも関連している。色々な手法が開発されているもののXAIの実利用は発展途上という印象。前に書いた通り有用な技術であることは間違いなく、今後の発展が期待される。
    • 本論も良いが前半のBACKGROUDの記載内容が非常に参考になる。
    • 残念ながらFuguMTの訳がひどい。新verでは改善される予定。。。

FastSHAP: 高速なSHAP計算(モデル)

  • FastSHAP: Real-Time Shapley Value Estimation [25.5]
    FastSHAPは、学習された説明モデルを用いて、1つのフォワードパスでShapley値を推定する手法である。 これは、Shapley値の重み付き最小二乗特徴づけにインスパイアされた学習アプローチを通じて、多くの入力を説明するコストを償却する。 これは、桁違いのスピードアップで高品質な説明を生成する。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 16:34:45 GMT)
    • シャープレイ値を高速に求めようという研究。予測が非常に高速で画像にも有効である点が興味深いもののSHAPを求めるモデルを作るというアプローチが(社会が求める)説明として有効なのか疑問ではある。

XAI-Bench:XAIの評価指標とベンチマークデータ

  • Synthetic Benchmarks for Scientific Research in Explainable Machine Learning [14.2]
    我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。 実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。 いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
    論文  参考訳(メタデータ)   (Wed, 23 Jun 2021 17:10:21 GMT)
    • XAIのベンチマークのため指標をまとめ、合成データセットを作成したとの報告。XAIの評価は難しくこのような取り組みは重要。リアルなデータではベンチマーク構築が難しいことから合成データを用いている。LIMEが良い結果になっていてやや意外ではあった。
    • データ、コード等はhttps://github.com/abacusai/xai-benchから確認可能