Data Smells: データ品質の問題を示唆する特徴

  • Data Smells in Public Datasets [7.1]
    我々は、機械学習システムにおける問題の早期兆候を示すために使用できる、新しいデータ臭いのカタログを紹介する。 データセットにおけるデータ品質の問題の頻度を理解するために、25の公開データセットを分析し、14のデータ臭いを特定します。
    論文  参考訳(メタデータ)   (Tue, 15 Mar 2022 15:44:20 GMT)
    • Code smellのデータ版。ローデータ(前処理前)と考えると納得しかねる指摘もあるが、面白い研究であり重要であるとも思う。

自動運転におけるSemantic AI Securityのサーベイ

  • SoK: On the Semantic AI Security in Autonomous Driving [34.5]
    自律運転システムは、安全と運転判断の正しさをAIコンポーネントに依存している。 このようなAIコンポーネントレベルの脆弱性がシステムレベルでセマンティックに影響を及ぼすためには、非自明なセマンティックギャップに対処する必要がある。 本稿では,このような研究領域を汎用AIセキュリティとは対照的にセマンティックAIセキュリティと定義しsemantic ad aiセキュリティ研究分野における知識の体系化を初めて実施する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 10 Mar 2022 12:00:34 GMT)
    • 単一コンポーネントの脆弱性がシステム全体に影響を及ぼすかは自明ではなく、System-to-AIとAI-to-Systemの2つのギャップがある。このような研究をsemantic AI securityと呼び、そのサーベイを実施したとのこと。
    • 自動運転のセキュリティに関する良いサーベイでもあり非常に参考になる。
    • プロジェクトサイトはAD & CV Systems Security – PASS (google.com)

DeepAA(Deep AutoAugment): データ拡張の自動化

  • Deep AutoAugment [22.3]
    我々はDeep AutoAugment(DeepAA)というデータ拡張検索のための完全自動化手法を提案する。 DeepAAは、収束に到達するまで、一度に1つの増層レイヤを積み重ねることで、スクラッチから多層データ拡張パイプラインを構築する。 実験の結果, 既定の増補がなくても, 従来よりも高い性能を達成した増補政策を学習できることが判明した。
    論文  参考訳(メタデータ)   (Fri, 11 Mar 2022 18:57:27 GMT)
    • 多層アーキテクチャによるデータ拡張の自動化。他手法に比べて優れた性能を達成したとのこと。

UFO (Unified Framework for Co-Object Segmentation)

LaPraDoR(Large-scale Pretrained Dense Zero-shot Retriever): Zero-shotなText Retrieval

フェイクニュース検知のためのフェイクニュース生成

  • Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation [105.2]
    本稿では,人間が書いたフェイクニュースに近い記事を生成するための新しいフレームワークを提案する。 そして、私たちはプロパガンダのテクニックを、人間が偽ニュースを作る方法を模倣するために生成した記事に明示的に組み入れます。 PropaNewsでトレーニングされた検出器は、最先端のアプローチによって生成されたデータに基づいてトレーニングされた検出器よりも、人間の書き起こした偽情報を検出する精度が7.3%から12.0%高いことを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 10 Mar 2022 14:24:19 GMT)
    • Fake Newsを自動生成して検出器の性能を上げるという報告。人が書いたフェイクニュースのテクニックとして「主張の大半が本物(虚偽の主張は極一部)」のようなものが挙げられている。アプローチも「重要な文を特定」→「文脈に合わせて虚偽の文に置き換え」→「プロパガンダの記載」と良くも悪くも納得感がある。
    • データセット等は公開予定とのこと。

Kubric:データセットジェネレータ

ProbES(Prompt-based Environmental Selfexploration): VLNを対象としたデータ合成

  • Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [84.0]
    本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。 我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
    論文  参考訳(メタデータ)   (Tue, 8 Mar 2022 11:01:24 GMT)
  • 最近よく見かける事前学習モデルからデータを作るという方針をVLNに適用した報告。画像と自然言語の紐づけにはCLIPを使用とのこと。
  • リポジトリはGitHub – liangcici/Probes-VLN

自然言語生成における忠実性の問題に関するサーベイ

  • Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods [48.5]
    自然言語生成(NLG)は,事前学習型言語モデルなどの深層学習技術の発展により,近年大きく進歩している。 しかし、生成したテキストが通常不信または非実情報を含むという忠実性問題は、最大の課題となっている。
    論文  参考訳(メタデータ)   (Thu, 10 Mar 2022 08:28:32 GMT)
    • NLGを行う上で「fluency (流暢か)」「informativeness (有用なものか)」「controllability (制御できるか)」「faithfulness (入力に忠実か)」などが課題となる。テンプレート方式ではfaithfulnessを満たしやすいが近年の言語モデルを用いたNLGではこれを満たすことは簡単ではない。このサーベイではfaithfulnessに注目して評価や最適化手法をまとめている。NLG一般のサーベイとしても有用な印象。

LUV(Labels from UltraViolet): 紫外線を用いたラベリング

  • All You Need is LUV: Unsupervised Collection of Labeled Images using Invisible UV Fluorescent Indicators [36.5]
    Labels from UltraViolet (LUV)は、人間のラベル付けなしで実際の操作環境で高速にラベル付けされたデータ収集を可能にする新しいフレームワークである。 LUVは透明な紫外線塗料とプログラマブルな紫外線LEDを使って、標準的な照明でシーンのペア画像を集めている。 LUVは、未塗布試験画像上の人間のアノテーションと整合したラベルを提供する。
    論文  参考訳(メタデータ)   (Wed, 9 Mar 2022 08:03:07 GMT)
    • 通常のアノテーションは「可視光で撮影した画像」を見ながら人がラベリングやセグメンテーションを実施する。そのプロセスは大変なので、認識対象に紫外線蛍光塗料を塗り「②紫外線LEDを使って撮影した画像」を使えばアノテーション相当の結果が得られるという報告。All You Needかは疑問だがデータを作りに行ける場合は有効な方法だと思う。
      • シミュレーション環境でデータを作る手法もよくつかわれるがリアルな環境でうまくやるアイデアはなるほどと思う。
    • プロジェクトサイトはAll You Need is LUV (google.com)