Beyond Human Data

  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [105.5]
    人為的なデータに基づく微調整言語モデル(LM)が普及している。 我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
    論文  参考訳(メタデータ)   (Tue, 12 Dec 2023 23:16:16 GMT)
  • LLMへの合成データ適用が有効か検証した論文。生成→フィルタ→finetune→生成→・・・という自己学習形式。
  • 数学やコード生成で有効なのはそうなのかなと思う。limitationとして挙がっていた「Second, ReST𝐸𝑀 also requires access to a manually-designed or learned reward function, ideally one that can be computed automatically.」は重要。

Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection

  • Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection [65.9]
    本研究では,カモフラージュデータの合成フレームワークを提案する。 提案手法では,既存の物体検出モデルのトレーニングに使用可能な,現実的なカモフラージュ画像の生成に生成モデルを用いる。 我々のフレームワークは3つのデータセット上で最先端の手法より優れています。
    論文  参考訳(メタデータ)   (Sun, 13 Aug 2023 06:55:05 GMT)
  • camouflaged object detectionに合成データを用いるアプローチを提案、複数のデータでSoTAを主張。データ生成はGANベースとのこと。
  • 正直やや意外な結果、カモフラージュデータの生成の方が物体検出より容易とのことなのだろうか・・・?

Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data 

  • Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.5]
    合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。 合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
    論文  参考訳(メタデータ)   (Fri, 7 Apr 2023 16:38:40 GMT)
  • 利用が注目されている合成データに関する報告、サーベイ
  • プライバシー保護やデータ収集の手間など良い面はありつつ、そもそも生成できるのかなど課題は多い。

Synthcity

QAmeleon: Multilingual QA with Only 5 Examples 

  • QAmeleon: Multilingual QA with Only 5 Examples [71.8]
    数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。 我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。 言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
    論文  参考訳(メタデータ)   (Tue, 15 Nov 2022 16:14:39 GMT)
  • 多言語QAモデル実現のための合成データ作成においてPLM+promptを使う手法の提案

DigiFace-1M

  • DigiFace-1M: 1 Million Digital Face Images for Face Recognition [25.3]
    最先端の顔認識モデルは、Wildデータセットのラベル付き顔に対して99.8%以上の精度で達成されている。 コンピュータグラフィックスパイプラインを用いてデジタル顔の描画によって得られた顔認識のための大規模合成データセットを提案する。
    論文  参考訳(メタデータ)   (Wed, 5 Oct 2022 22:02:48 GMT)
    • 顔認識モデル構築のための合成データセット。プライバシー上の問題がないのが利点でSynFace より高性能なモデル構築が可能とのこと。
      • 特にこのような分野だと主データはSynthetic dataという設定が有効そう
    • リポジトリはmicrosoft/DigiFace1M (github.com)

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation

  • SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation [152.6]
    ShiFTは、自動運転のための最大規模のマルチタスク合成データセットである。 曇り、雨と霧の強さ、昼の時間、車と歩行者の密度を個別に連続的に変化させる。 私たちのデータセットとベンチマークツールキットはwww.vis.xyz/shift.comで公開されています。
    論文  参考訳(メタデータ)   (Thu, 16 Jun 2022 17:59:52 GMT)
    • 自動運転のための大規模合成データセット。気象条件、時刻、車両・歩行者の密度、カメラの向きといった変化に対応できるか検証可能な構成となっている。合成データではあるが、ドメイン間の性能差異は実環境のデータセットと同様であるとのこと。
    • プロジェクトサイトはSHIFT Dataset (vis.xyz)、ライセンスは CC BY-SA 4.0

より効率的なDataset Condensation

  • Dataset Condensation via Efficient Synthetic-Data Parameterization [40.6]
    大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。 データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。 本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 2 Jun 2022 05:45:02 GMT)