Benchmarking Large Language Models As AI Research Agents

Benchmarking Large Language Models As AI Research Agents [105.7]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。長期計画や幻覚など,LLMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文参考訳（メタデータ） (Thu, 5 Oct 2023 04:06:12 GMT)
データ処理、アーキテクチャ選択、トレーニングプロセスなど、機械学習パイプライン全体を対象とするエージェント用ベンチマーク。タスクは良く研究されているものKaggleにあるもの最近のタスクなど様々。結果もGPT-4は優れているもののタスク間の差異が大きいように見える。
リポジトリはGitHub – snap-stanford/MLAgentBench

コメントを残す

コメントを残す コメントをキャンセル