AIモデルのFairness検証の実例

AI系手法(といっても一つはロジスティック回帰だが)の実例をFairnessの観点から分析した報告が出ていた。この手の話題はFairnessとは何か?の議論が重要で、実例をしっかりと扱った論文はとても勉強になる。

  • Fair Decision-Making for Food Inspections [3.4]
    本稿では,シカゴ市公衆衛生局によるレストラン検査の予測モデルの適用について再検討する。 本モデルでは,検査を行った正統性に基づいて,検査を不平等に扱うことが確認された。 我々は、オリジナルのモデルをより公平な方法で使用するためのアプローチと、公平性を達成するためのモデルのトレーニング方法の両方について検討する。
    論文  参考訳(メタデータ)   (Thu, 12 Aug 2021 04:17:39 GMT)
  • Fairness in Algorithmic Profiling: A German Case Study [0.0]
    本研究では、求職者の長期失業リスクを予測するための統計モデルを比較し、評価する。 これらのモデルは、競争力のある精度で長期失業を予測するために使用できることを示す。 異なる分類ポリシーは、非常に異なる公平性をもたらすことを強調する。
    論文  参考訳(メタデータ)   (Wed, 4 Aug 2021 13:43:42 GMT)

NLPにおける説明手法のサーベイ

  • Post-hoc Interpretability for Neural NLP: A Survey [11.8]
    本稿では,解釈可能性法がどのように説明を伝達するかを分類する。 この調査は、モデル学習後に説明を提供するポストホック手法に焦点を当てている。 このクラスのメソッドに共通する関心事は、モデルが正確に反映されているかどうかである。
    論文  参考訳(メタデータ)   (Tue, 10 Aug 2021 18:00:14 GMT)
    • 自然言語処理を対象にした説明性、解釈性を実現する手法のサーベイ。モチベーション、評価方法、手法の概要説明と非常に多くの手法を紹介している。この分野を振り返るうえで貴重な資料。

T-PTLM(Transformer-based Pretrained Language Models)のサーベイ

  • AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing [0.0]
    トランスフォーマーベースの事前訓練言語モデル(T-PTLM)は、ほぼすべてのNLPタスクで大きな成功を収めている。 変換されたPTLMは、自己教師付き学習を用いて大量のテキストデータから普遍的な言語表現を学習する。 これらのモデルは、下流モデルのスクラッチからのトレーニングを避けるために、下流タスクに適切なバックグラウンド知識を提供する。
    論文  参考訳(メタデータ)   (Thu, 12 Aug 2021 05:32:18 GMT)
    • 最近よく見るTransformerを用いた大規模事前学習モデルのサーベイ。42ページ、引用数304でこの分野を広範に調査、整理している。

FoodLogoDet-1500:大規模な食品ロゴのデータセット

  • FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via Multi-Scale Feature Decoupling Network [55.5]
    高度な食品ロゴ検出アルゴリズムを開発するには、大規模な食品ロゴデータセットが緊急に必要である。 FoodLogoDet-1500は、1500のカテゴリ、約10万の画像、約15万個の手動で注釈付けされた食品ロゴオブジェクトを備えた、新しい大規模一般公開の食品ロゴデータセットである。 食品のロゴを識別する手法として,MFDNet(Multi-scale Feature Decoupling Network)を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 10 Aug 2021 12:47:04 GMT)
    • 食品のロゴをアノテーションしたデータセット。15Kカテゴリ、100K画像、150Kオブジェクトと大規模。著者らはMFDNetというモデルを提案、他の様々な手法に比べて優れていたと報告している。
    • リポジトリはhttps://github.com/hq03/FoodLogoDet-1500-Dataset、現時点ではデータはアップロードされていないよう。

摂動入力によるNLPモデル解釈への影響

  • Perturbing Inputs for Fragile Interpretations in Deep Natural Language Processing [18.9]
    解釈可能性の手法は、医療や金融などの高い分野における信頼できるNLPアプリケーションにとって堅牢である必要がある。 本稿では,入力テキスト上で単純な単語摂動を行うことで,解釈がどのように操作できるかを示す。
    論文  参考訳(メタデータ)   (Wed, 11 Aug 2021 02:07:21 GMT)
    • 単語をスワップすることによってLIMEやINTEGRATED GRADIENTの解釈に影響を与えることができるかを検証した論文。解釈性へ影響を与えることが可能とのこと。
    • 「there has been little analysis of the reliability and robustness of the explanation techniques」という指摘は重要。

CIRR( Composed Image Retrieval on Real-life images)データセットとCIRPLANT(Composed Image Retrieval using Pretrained LANguage Transformers )モデル

  • Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models [41.7]
    合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。 CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。 比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Mon, 9 Aug 2021 13:25:06 GMT)
  • テキストによるフィードバックを条件とする画像検索を前提にデータセットとモデルを提案している。論文またはプロジェクトサイトの具体例を見るのが分かりやすいが、「1匹の犬の画像」と「同じ犬種の2匹が床にいる」というテキストを与えて「同じ犬種の2匹の犬が床にいる」画像を探すというタスク。マルチモーダルの取り扱いが必要で実用的なタスクのように感じる。
  • プロジェクトサイトはhttps://cuberick-orion.github.io/CIRR/

Neural paintingのためのPaint Transformer、画像に対するストローク生成

  • Paint Transformer: Feed Forward Neural Painting with Stroke Prediction [36.5]
    我々は,フィードフォワードネットワークを用いたストロークセットのパラメータを予測するために,Paint Transformerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。 このようにして、我々のモデルは並列に一組のストロークを生成でき、ほぼリアルタイムでサイズ512 * 512の最終的な絵を得ることができる。 実験により,本手法はトレーニングコストと推論コストの低減により,従来の手法よりも優れた塗装性能が得られることが示された。
    論文  参考訳(メタデータ)   (Mon, 9 Aug 2021 04:18:58 GMT)
    • ニューラル・ペインティング(Neural painting)では、ある画像に対して一連のストロークを生成し絵画として再現する。強化学習を用いるアプローチではなく、予測問題として問題を定式化してTransformerベースのアーキテクチャで解いたとの報告。リポジトリにあるAnimated Outputが分かりやすい。
    • self-training pipelineをうまく組んだ構成となっており、問題に対するアプローチを検討するうえで参考になる。
    • リポジトリはhttps://github.com/Huage001/PaintTransformer

AutoVideo: ビデオからの行動認識AutoML

  • AutoVideo: An Automated Video Action Recognition System [38.4]
    AutoVideoは、自動ビデオアクション認識のためのPythonシステムである。 7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートする。 AutoMLのサーチと簡単に組み合わせることができる。
    論文  参考訳(メタデータ)   (Mon, 9 Aug 2021 17:53:32 GMT)

OCRで作成されたテキストに対するNLP

  • Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents [2.6]
    我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。 まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。 コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 00:32:54 GMT)
    • OCRで作られたテキストに対するNLPは通常のテキストと異なる問題が多々ある。この論文ではNERを対象にOCRにありがちなエラーを再現するフレームワークを構築し、合成データを増やしてデータ不足に対応するアプローチを紹介している。

StrucTexT:マルチモーダルな構造化テキスト理解

  • StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.5]
    Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。 本稿では,SrucTexTという統合フレームワークを提案する。 セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 02:57:07 GMT)
    • 構造化されたドキュメントの画像を理解するタスクは現実的に多いがOCRとは似て非なる難しさがある。通常entity labelingとentity linkingの2つのタスクに分解して解くとのことだが、この論文では2つを統一的に扱う構造を提案、SROIE: Scanned Receipts OCR and Information ExtractionやFUNSD: A Dataset for Form Understanding in Noisy Scanned Documentsなどで優れた性能を出したとのこと。