DebugBench

  • DebugBench: Evaluating Debugging Capability of Large Language Models [89.1]
    DebugBench – LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。 ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 11:48:36 GMT)
  • デバッグ性能を評価する大規模なベンチマーク
  • 「The experimental results reveal that while closed-source models are less effective compared to human performance, open-source models struggle to yield efficient outcomes in debugging tasks.」という結果で既存のOSSモデルはゼロショットでのデバッグができず、GPT-4でも十分とはいいがたい結果のよう。
  • リポジトリはthunlp/DebugBench: The repository for paper “DebugBench: “Evaluating Debugging Capability of Large Language Models”. (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です