- BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery [24.6]
実験的な設計とモデル発見を評価するための10環境のベンチマークであるBoxingGymを紹介する。 予測情報ゲイン(EIG)は,実験が生成モデルのパラメータの不確実性をどの程度低減するかを測定する情報理論量である。 GPT-4oのような現在のLLMは、実験的な設計とモデル発見の両方に苦戦している。
論文 参考訳(メタデータ) (Thu, 02 Jan 2025 21:15:57 GMT) - LLMによる実験計画・モデル発見のベンチマーク
- リポジトリはGitHub – kanishkg/boxing-gym at v0.1.0-beta