大模型拿金牌却输给三岁宝宝！一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数，却连幼儿园小班都考不过？简单的连线找垃圾桶、数积木，人类一眼即知，AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」，这个评测基准给出答案。

过去一年，大模型在语言与文本推理上突飞猛进：论文能写、难题能解、甚至在顶级学术/竞赛类题目上屡屡刷新上限。

但一个更关键的问题是：当问题不再能「用语言说清楚」时，模型还能不能「看懂」？

为了测评模型能不能「看懂」，以及能「看懂」多少，UniPat AI携手红杉中国xbench团队，并联合多家大模型公司与高校的研究员，发布新的多模态理解评测集BabyVision。

UniPat AI致力于构建真实场景下AI训练、评测与应用的新范式，推动其实现可泛化、可信赖的真实世界部署，并创造切实的经济与社会价值。

如果一个视觉问题可以完全用文字描述且不丢信息，它本质上就会退化成文本题。

模型可以靠强大的语言推理能力一路通关，看起来很会「看」，其实是在走语言捷径。

而真正的视觉能力，需要在没有语言扶梯的情况下完成：比较、追踪、空间想象、模式归纳。

Google DeepMind创始人Demis Hassabis曾提到类似观点：

「大模型可以在国际数学奥林匹克拿金牌，却会在小学几何题上出错；它能生成惊艳图像，却不理解杯子为什么不会飘在空中。」

展望2026年，我们判断世界模型与视觉多模态将迎来新一轮突破性进展。

值此开年之际，UniPat AI联合xbench率先抛出关键问题和全新「考卷」，以此迎接并参与新一轮技术突破的到来。

让顶尖模型和孩子做同一张试卷

BabyVision先做了一项非常直接的对比实验：把20道视觉中心任务（vision-centric）作为BabyVision-Mini交给不同年龄段孩子（3/6/10/12岁）和当下顶尖多模态模型来做。

这份「小试卷」要求严格控制语言依赖：题目要求很简单，答案必须靠视觉信息本身得出。

而最终评测结果显示：在「看懂世界」这方面，大模型还没上幼儿园：

百姓社区更多>>