「Data wrangling involves cleaning, structuring, and enriching raw data into a desired format for further analysis [96], such as by removing duplicates, casting types, and extracting features [17].」のためのコード合成を目指したデータセット構築とそれを利用したDataCoderの提案。DataCoderのアーキテクチャが「Data Encoder」 + 「Code + Text Encoder」 +「 Decoder」という構成、よく見られるLLM baseなアーキテクチャでないことも興味深い。