BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

  • BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery [24.6]
    実験的な設計とモデル発見を評価するための10環境のベンチマークであるBoxingGymを紹介する。 予測情報ゲイン(EIG)は,実験が生成モデルのパラメータの不確実性をどの程度低減するかを測定する情報理論量である。 GPT-4oのような現在のLLMは、実験的な設計とモデル発見の両方に苦戦している。
    論文  参考訳(メタデータ)   (Thu, 02 Jan 2025 21:15:57 GMT)
  • LLMによる実験計画・モデル発見のベンチマーク
  • リポジトリはGitHub – kanishkg/boxing-gym at v0.1.0-beta

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です