A Survey of LLM × DATA

  • A Survey of LLM $\times$ DATA [72.0]
    大規模言語モデル(LLM)とデータ管理(Data4LLM)の統合は、両方のドメインを急速に再定義しています。 一方、Data data4LLMは、事前トレーニング、後トレーニング、検索強化生成、エージェント生成などの段階に必要なデータの高品質、多様性、タイムラインをLLMに提供する。 一方、LLMはデータ管理のための汎用エンジンとして登場しつつある。
    論文  参考訳(メタデータ)   (Sat, 24 May 2025 01:57:12 GMT)
  • データを軸としたサーベイ。
  • リポジトリとしてGitHub – weAIDB/awesome-data-llm: Official Repository of “LLM × DATA” Survey Paperがあり、数多くの論文がリンクされている。

Synthcity

Training Data Influence Analysis and Estimation

  • Training Data Influence Analysis and Estimation: A Survey [11.7]
    トレーニングデータの影響分析と推定に関する総合的な調査を初めて実施する。 我々は、最先端の影響分析手法を分類学に編成する。 本研究では,影響分析をより効果的に活用するための今後の研究の方向性を提案する。
    論文  参考訳(メタデータ)   (Fri, 9 Dec 2022 00:32:46 GMT)
  • 学習データと予測に関係する様々な研究をサーベイしたもの。ビジネスではよく聞かれる&必要とされている分野ではあるが発展途上(理解しきれていない)分野でありそうとの感想。
  • リポジトリに論文リストがあってこちらも参考になる ZaydH/influence_analysis_papers: Influence Analysis and Estimation – Survey, Papers, and Taxonomy (github.com)