ELLE(Efficient Lifelong Pre-training for Emerging Data): 新たなデータの発生を考慮したPLM

  • ELLE: Efficient Lifelong Pre-training for Emerging Data [91.5]
    現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。 新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。 ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
    論文  参考訳(メタデータ)   (Sat, 12 Mar 2022 01:53:53 GMT)
    • 特に言語モデルで問題となる新たなデータに対する継続的な学習(ここではLifelong learning)に関する論文。計算コスト等を下げる効率的な枠組みを提案。既存の言語モデルの幅や深さ(パラメータ数)を拡大する際に効率化が可能とのこと。
      • 新たなデータを獲得するたびにモデルサイズも拡張していく設定がリアル。。。

Chart-to-Text:グラフを自然言語で表現するためのデータセット

  • Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.6]
    2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。 データセット構築プロセスを説明し、データセットを解析する。
    論文  参考訳(メタデータ)   (Sat, 12 Mar 2022 17:01:38 GMT)
    • グラフの説明をするモデル構築のためのデータセットとベースラインの提案。比較を含むためテキスト生成の中でも難しいタスクのように感じる。
    • リポジトリはGitHub – vis-nlp/Chart-to-textとのこと。(現状ではアップロードされていない)

音声CAPTCHAの攻撃と防御

  • Attacks as Defenses: Designing Robust Audio CAPTCHAs Using Attacks on Automatic Speech Recognition Systems [10.8]
    近年,ロバストで原理駆動型オーディオディフェンスの構築にインスピレーションを与えるために,音声・テキストシステムに対する攻撃について検討している。 本稿では,比較的知的な(ユーザスタディを通じて評価)かつ,自動書き起こしが難しい新しいメカニズムを提案する。 音声サンプルは,音声合成システムにおいてCAPTCHAとして検出される確率が高い。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 10 Mar 2022 15:04:15 GMT)
    • 音声のCAPTCHAに対する攻撃と防御を整理し堅牢な音声CAPTCHA、Yeehaw Junctionを提案。

Data Smells: データ品質の問題を示唆する特徴

  • Data Smells in Public Datasets [7.1]
    我々は、機械学習システムにおける問題の早期兆候を示すために使用できる、新しいデータ臭いのカタログを紹介する。 データセットにおけるデータ品質の問題の頻度を理解するために、25の公開データセットを分析し、14のデータ臭いを特定します。
    論文  参考訳(メタデータ)   (Tue, 15 Mar 2022 15:44:20 GMT)
    • Code smellのデータ版。ローデータ(前処理前)と考えると納得しかねる指摘もあるが、面白い研究であり重要であるとも思う。

自動運転におけるSemantic AI Securityのサーベイ

  • SoK: On the Semantic AI Security in Autonomous Driving [34.5]
    自律運転システムは、安全と運転判断の正しさをAIコンポーネントに依存している。 このようなAIコンポーネントレベルの脆弱性がシステムレベルでセマンティックに影響を及ぼすためには、非自明なセマンティックギャップに対処する必要がある。 本稿では,このような研究領域を汎用AIセキュリティとは対照的にセマンティックAIセキュリティと定義しsemantic ad aiセキュリティ研究分野における知識の体系化を初めて実施する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 10 Mar 2022 12:00:34 GMT)
    • 単一コンポーネントの脆弱性がシステム全体に影響を及ぼすかは自明ではなく、System-to-AIとAI-to-Systemの2つのギャップがある。このような研究をsemantic AI securityと呼び、そのサーベイを実施したとのこと。
    • 自動運転のセキュリティに関する良いサーベイでもあり非常に参考になる。
    • プロジェクトサイトはAD & CV Systems Security – PASS (google.com)

DeepAA(Deep AutoAugment): データ拡張の自動化

  • Deep AutoAugment [22.3]
    我々はDeep AutoAugment(DeepAA)というデータ拡張検索のための完全自動化手法を提案する。 DeepAAは、収束に到達するまで、一度に1つの増層レイヤを積み重ねることで、スクラッチから多層データ拡張パイプラインを構築する。 実験の結果, 既定の増補がなくても, 従来よりも高い性能を達成した増補政策を学習できることが判明した。
    論文  参考訳(メタデータ)   (Fri, 11 Mar 2022 18:57:27 GMT)
    • 多層アーキテクチャによるデータ拡張の自動化。他手法に比べて優れた性能を達成したとのこと。

UFO (Unified Framework for Co-Object Segmentation)

LaPraDoR(Large-scale Pretrained Dense Zero-shot Retriever): Zero-shotなText Retrieval

フェイクニュース検知のためのフェイクニュース生成

  • Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation [105.2]
    本稿では,人間が書いたフェイクニュースに近い記事を生成するための新しいフレームワークを提案する。 そして、私たちはプロパガンダのテクニックを、人間が偽ニュースを作る方法を模倣するために生成した記事に明示的に組み入れます。 PropaNewsでトレーニングされた検出器は、最先端のアプローチによって生成されたデータに基づいてトレーニングされた検出器よりも、人間の書き起こした偽情報を検出する精度が7.3%から12.0%高いことを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 10 Mar 2022 14:24:19 GMT)
    • Fake Newsを自動生成して検出器の性能を上げるという報告。人が書いたフェイクニュースのテクニックとして「主張の大半が本物(虚偽の主張は極一部)」のようなものが挙げられている。アプローチも「重要な文を特定」→「文脈に合わせて虚偽の文に置き換え」→「プロパガンダの記載」と良くも悪くも納得感がある。
    • データセット等は公開予定とのこと。

Kubric:データセットジェネレータ