Synthcity

QAmeleon: Multilingual QA with Only 5 Examples 

  • QAmeleon: Multilingual QA with Only 5 Examples [71.8]
    数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。 我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。 言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
    論文  参考訳(メタデータ)   (Tue, 15 Nov 2022 16:14:39 GMT)
  • 多言語QAモデル実現のための合成データ作成においてPLM+promptを使う手法の提案

DigiFace-1M

  • DigiFace-1M: 1 Million Digital Face Images for Face Recognition [25.3]
    最先端の顔認識モデルは、Wildデータセットのラベル付き顔に対して99.8%以上の精度で達成されている。 コンピュータグラフィックスパイプラインを用いてデジタル顔の描画によって得られた顔認識のための大規模合成データセットを提案する。
    論文  参考訳(メタデータ)   (Wed, 5 Oct 2022 22:02:48 GMT)
    • 顔認識モデル構築のための合成データセット。プライバシー上の問題がないのが利点でSynFace より高性能なモデル構築が可能とのこと。
      • 特にこのような分野だと主データはSynthetic dataという設定が有効そう
    • リポジトリはmicrosoft/DigiFace1M (github.com)

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation

  • SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation [152.6]
    ShiFTは、自動運転のための最大規模のマルチタスク合成データセットである。 曇り、雨と霧の強さ、昼の時間、車と歩行者の密度を個別に連続的に変化させる。 私たちのデータセットとベンチマークツールキットはwww.vis.xyz/shift.comで公開されています。
    論文  参考訳(メタデータ)   (Thu, 16 Jun 2022 17:59:52 GMT)
    • 自動運転のための大規模合成データセット。気象条件、時刻、車両・歩行者の密度、カメラの向きといった変化に対応できるか検証可能な構成となっている。合成データではあるが、ドメイン間の性能差異は実環境のデータセットと同様であるとのこと。
    • プロジェクトサイトはSHIFT Dataset (vis.xyz)、ライセンスは CC BY-SA 4.0

より効率的なDataset Condensation

  • Dataset Condensation via Efficient Synthetic-Data Parameterization [40.6]
    大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。 データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。 本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 2 Jun 2022 05:45:02 GMT)