Execution-based Evaluation for Data Science Code Generation Models

  • Execution-based Evaluation for Data Science Code Generation Models [98.0]
    データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。 ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。 表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 07:04:11 GMT)
  • データサイエンスの問題を解くためのコード生成ベンチマークの提案。より実用的なタスク(&評価)で面白い。
  • 生成されたコードの近さとアウトプットの近さには距離があるのは直感通りとして、Codeexがコード的には遠いがアウトプットではまずまずの結果を出している点が興味深い。意味まで理解しているっぽい動き。
  • https://github.com/Jun-jie-Huang/ExeDSがリポジトリとのことだが、現時点では404

Token Turing Machines

  • Token Turing Machines [53.2]
    Token Turing Machines (TTM) はシーケンシャルな自己回帰型トランスフォーマーモデルである。 我々のモデルは、セミナルなニューラルチューリングマシンにインスパイアされ、以前の履歴を要約するトークンの集合からなる外部メモリを持つ。
    論文  参考訳(メタデータ)   (Wed, 16 Nov 2022 18:59:18 GMT)
  • Neural Turing Machineのように外部メモリを持つモデルの提案。
  • NTMは非常に話題になった割にはあまり使われていない印象だが本技術がどうなるかとても気になる。ベンチマーク結果からは有望な印象。