Pixels, Patterns, but No Poetry: To See The World like Humans
Pixels, Patterns, but No Poetry: To See The World like Humans [33.8] 最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。 この論文は、推論から知覚へと焦点を移す。 論文参考訳(メタデータ) (Mon, 21 Jul 2025 21:50:16 GMT)
人間だと直感的に理解可能な Turing Eye Test (TET)の提案。「Through four diagnostic tasks involving concealed text, 3D Captchas, Chinese character compositions, and color blind test charts, we demonstrated that state-of-the-art MLLMs exhibit catastrophic failures on perceptual tasks that humans solve intuitively.」とAIにはとけないものが多い。創作漢字コンテストの漢字を理解できるか興味深いところ(leakが怖いが…)。