大模型能写代码、解奥数,却连幼儿园小班都考不过?简单的连线找垃圾桶、数积木,人类一眼即知,AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」,这个评测基准给出答案。
过去一年,大模型在语言与文本推理上突飞猛进:论文能写、难题能解、甚至在顶级学术/竞赛类题目上屡屡刷新上限。
但一个更关键的问题是:当问题不再能「用语言说清楚」时,模型还能不能「看懂」?
为了测评模型能不能「看懂」,以及能「看懂」多少,UniPat AI携手红杉中国xbench团队,并联合多家大模型公司与高校的研究员,发布新的多模态理解评测集BabyVision。
UniPat AI致力于构建真实场景下AI训练、评测与应用的新范式,推动其实现可泛化、可信赖的真实世界部署,并创造切实的经济与社会价值。
如果一个视觉问题可以完全用文字描述且不丢信息,它本质上就会退化成文本题。
模型可以靠强大的语言推理能力一路通关,看起来很会「看」,其实是在走语言捷径。
而真正的视觉能力,需要在没有语言扶梯的情况下完成:比较、追踪、空间想象、模式归纳。
Google DeepMind创始人Demis Hassabis曾提到类似观点:
「大模型可以在国际数学奥林匹克拿金牌,却会在小学几何题上出错;它能生成惊艳图像,却不理解杯子为什么不会飘在空中。」
展望2026年,我们判断世界模型与视觉多模态将迎来新一轮突破性进展。
值此开年之际,UniPat AI联合xbench率先抛出关键问题和全新「考卷」,以此迎接并参与新一轮技术突破的到来。
让顶尖模型和孩子做同一张试卷
BabyVision先做了一项非常直接的对比实验:把20道视觉中心任务(vision-centric)作为BabyVision-Mini交给不同年龄段孩子(3/6/10/12岁)和当下顶尖多模态模型来做。
这份「小试卷」要求严格控制语言依赖:题目要求很简单,答案必须靠视觉信息本身得出。
而最终评测结果显示:在「看懂世界」这方面,大模型还没上幼儿园:
-
大多数模型的分数,聚集在明显低于平均3岁儿童的区间;
-
Gemini-3-Pro-Preview是唯一稳定超过3岁基线的模型,但距离6岁儿童仍差约20个百分点。