コンテンツへスキップ
- Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.3]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。 コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。 実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (Fri, 20 Sep 2024 14:49:51 GMT)
- 「Data wrangling involves cleaning, structuring, and enriching raw data into a desired format for further analysis [96], such as by removing duplicates, casting types, and extracting features [17].」のためのコード合成を目指したデータセット構築とそれを利用したDataCoderの提案。DataCoderのアーキテクチャが「Data Encoder」 + 「Code + Text Encoder」 +「 Decoder」という構成、よく見られるLLM baseなアーキテクチャでないことも興味深い。
- リポジトリはGitHub – Jun-jie-Huang/CoCoNote: Source Code for ASE-24 paper “Contextualized Data-Wrangling Code Generation in Computational Notebooks”.