- MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.8]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。 MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 14:07:56 GMT) - Medical分野のベンチマーク。o1だけでなくDeepseek R1の結果も載っており、対応が速い。この結果だとo1はDeepseek R1より大幅にスコアが高い。
- リポジトリはGitHub – TsinghuaC3I/MedXpertQA: MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding