Adaptive inflation

  • Do Generated Data Always Help Contrastive Learning? [32.6]
    コントラスト学習(CL)は、教師なし視覚表現学習において最も成功したパラダイムの1つである。 生成モデル、特に拡散モデルの増加に伴い、実際のデータ分布に近い現実的な画像を生成する能力はよく認識されている。 しかし、生成したデータ(DDPMのような優れた拡散モデルからでも)は、コントラスト学習に害を与えることもある。
    論文  参考訳(メタデータ)   (Tue, 19 Mar 2024 05:17:47 GMT)
  • 合成データ+データ拡張はうまくいかないことが多い。その分析と対応方法をまとめた論文。強力な画像生成モデルによる合成データ活用が検討されるなか、重要な報告だと思う。
  • リポジトリはPKU-ML/adainf: Official code for ICLR 2024 paper Do Generated Data Always Help Contrastive Learning? (github.com)

Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora 

  • Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.8]
    大規模言語モデルに基づく効率的なデータ収集手法を提案する。 この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。 特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
    論文  参考訳(メタデータ)   (Fri, 26 Jan 2024 03:38:23 GMT)
  • 特定ドメインのデータを構築するための手法の提案。 Query Bootstrapping とData Retrievalからなり、前者でシードとなる検索を拡張、後者でBM25を用いて実際にデータを取得する。本件が想定するような大規模データだとBM25を使わざるを得ないのはそうだと思う。
  • コードは公開予定とのことだが、現時点ではリポジトリが見つからなかった。

SynCDR

  • SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [90.5]
    クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。 本稿では、これらの欠落したカテゴリの例をドメイン間で補うために合成データを生成するための簡単な解を提案する。 我々は、この翻訳のために訓練された2つのドメインと、プロンプトを介して大規模に訓練されたテキストから画像への拡散モデルを使用するドメインを比較した。
    論文  参考訳(メタデータ)   (Sun, 31 Dec 2023 08:06:53 GMT)
  • クロスドメイン検索へのデータ合成の応用
  • リポジトリはsamarth4149/SynCDR: Code for SynCDR (github.com)

Scaling Laws of Synthetic Images for Model Training

  • Scaling Laws of Synthetic Images for Model Training … for Now [54.4]
    本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。 合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 18:59:59 GMT)
  • 合成データを用いた時のスケーリング則の検証。合成データの利用は有望なアプローチである一方で不明点も多く、大規模検証はありがたい。「In supervised settings, synthetic data does not scale as effectively as real data.」というのはまぁそうだろうと思うが、「However, our study also highlights several scenarios where synthetic data proves advantageous: (1) In certain classes, synthetic data demonstrates better scaling behavior compared to real data; (2) Synthetic data is particularly effective when real data is scarce, for instance, in CLIP training with limited datasets; (3) Models trained on synthetic data may exhibit superior generalization to out-of-distribution data.」とのFindingsは重要。
  • リポジトリはGitHub – google-research/syn-rep-learn: Learning from synthetic data – code and models

Beyond Human Data

  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [105.5]
    人為的なデータに基づく微調整言語モデル(LM)が普及している。 我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
    論文  参考訳(メタデータ)   (Tue, 12 Dec 2023 23:16:16 GMT)
  • LLMへの合成データ適用が有効か検証した論文。生成→フィルタ→finetune→生成→・・・という自己学習形式。
  • 数学やコード生成で有効なのはそうなのかなと思う。limitationとして挙がっていた「Second, ReST𝐸𝑀 also requires access to a manually-designed or learned reward function, ideally one that can be computed automatically.」は重要。

Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection

  • Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection [65.9]
    本研究では,カモフラージュデータの合成フレームワークを提案する。 提案手法では,既存の物体検出モデルのトレーニングに使用可能な,現実的なカモフラージュ画像の生成に生成モデルを用いる。 我々のフレームワークは3つのデータセット上で最先端の手法より優れています。
    論文  参考訳(メタデータ)   (Sun, 13 Aug 2023 06:55:05 GMT)
  • camouflaged object detectionに合成データを用いるアプローチを提案、複数のデータでSoTAを主張。データ生成はGANベースとのこと。
  • 正直やや意外な結果、カモフラージュデータの生成の方が物体検出より容易とのことなのだろうか・・・?

Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data 

  • Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.5]
    合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。 合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
    論文  参考訳(メタデータ)   (Fri, 7 Apr 2023 16:38:40 GMT)
  • 利用が注目されている合成データに関する報告、サーベイ
  • プライバシー保護やデータ収集の手間など良い面はありつつ、そもそも生成できるのかなど課題は多い。

Synthcity

QAmeleon: Multilingual QA with Only 5 Examples 

  • QAmeleon: Multilingual QA with Only 5 Examples [71.8]
    数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。 我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。 言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
    論文  参考訳(メタデータ)   (Tue, 15 Nov 2022 16:14:39 GMT)
  • 多言語QAモデル実現のための合成データ作成においてPLM+promptを使う手法の提案

DigiFace-1M

  • DigiFace-1M: 1 Million Digital Face Images for Face Recognition [25.3]
    最先端の顔認識モデルは、Wildデータセットのラベル付き顔に対して99.8%以上の精度で達成されている。 コンピュータグラフィックスパイプラインを用いてデジタル顔の描画によって得られた顔認識のための大規模合成データセットを提案する。
    論文  参考訳(メタデータ)   (Wed, 5 Oct 2022 22:02:48 GMT)
    • 顔認識モデル構築のための合成データセット。プライバシー上の問題がないのが利点でSynFace より高性能なモデル構築が可能とのこと。
      • 特にこのような分野だと主データはSynthetic dataという設定が有効そう
    • リポジトリはmicrosoft/DigiFace1M (github.com)