- MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents [123.1]
MoNaCoは、1,315の自然で複雑な質問のベンチマークであり、解決には数十、数百の中間ステップが必要である。 我々の結果は、現実世界の情報検索の複雑さと厳密さに対処する推論モデルの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (Fri, 15 Aug 2025 00:58:10 GMT) - 「we introduce MONACO, a benchmark of 1,315 natural and complex questions that require dozens, and at times hundreds, of intermediate steps to solve — far more than any existing QA benchmark.」というベンチマーク。ベンチマーク構築自体が大変になっているという印象。
- 結果としてはGPT-5よりもo3の性能の方が高いのが興味深い。
- リポジトリはGitHub – tomerwolgithub/monaco: https://huggingface.co/datasets/allenai/MoNaCo_Benchmark、データはallenai/MoNaCo_Benchmark · Datasets at Hugging Face