Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training
Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training [53.1] DOMAIN2VECは、データセットを複数のメタドメインの線形結合に分解する新しいアプローチです。この手法は、ドメインベクターを生成し、トレーニングなしでデータミクスチャーの最適化を可能にします。実験では、この方法が計算コストを抑えながら、下流タスクのパフォーマンスを平均2.83%向上させることが示されています。 論文参考訳(メタデータ) (Thu, 12 Jun 2025 17:53:51 GMT)
色々な動きがあって興味深い2vec系の報告
「DOMAIN2VEC seamlessly integrates with existing methods, greatly improving their efficiency and scalability by establishing a direct relationship between model performance and domain vectors, without requiring retraining when training datasets change. Our experimental results demonstrate that both DOMAIN2VEC+DA2 and DOMAIN2VEC+RegMix achieve comparable text generation and downstream task performance with reduced computational overhead com- pared to existing approaches.」