首页 > 百姓社区 > 百姓社区 > 大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

发布时间:2026-01-12 11:38:53来源: 13899775532

大模型能写代码、解奥数,却连幼儿园小班都考不过?简单的连线找垃圾桶、数积木,人类一眼即知,AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」,这个评测基准给出答案。

过去一年,大模型在语言与文本推理上突飞猛进:论文能写、难题能解、甚至在顶级学术/竞赛类题目上屡屡刷新上限。

但一个更关键的问题是:当问题不再能「用语言说清楚」时,模型还能不能「看懂」?

为了测评模型能不能「看懂」,以及能「看懂」多少,UniPat AI携手红杉中国xbench团队,并联合多家大模型公司与高校的研究员,发布新的多模态理解评测集BabyVision。

UniPat AI致力于构建真实场景下AI训练、评测与应用的新范式,推动其实现可泛化、可信赖的真实世界部署,并创造切实的经济与社会价值。

如果一个视觉问题可以完全用文字描述且不丢信息,它本质上就会退化成文本题。

模型可以靠强大的语言推理能力一路通关,看起来很会「看」,其实是在走语言捷径。

而真正的视觉能力,需要在没有语言扶梯的情况下完成:比较、追踪、空间想象、模式归纳。

Google DeepMind创始人Demis Hassabis曾提到类似观点:

「大模型可以在国际数学奥林匹克拿金牌,却会在小学几何题上出错;它能生成惊艳图像,却不理解杯子为什么不会飘在空中。」

展望2026年,我们判断世界模型与视觉多模态将迎来新一轮突破性进展。

值此开年之际,UniPat AI联合xbench率先抛出关键问题和全新「考卷」,以此迎接并参与新一轮技术突破的到来。

让顶尖模型和孩子做同一张试卷

BabyVision先做了一项非常直接的对比实验:把20道视觉中心任务(vision-centric)作为BabyVision-Mini交给不同年龄段孩子(3/6/10/12岁)和当下顶尖多模态模型来做。

这份「小试卷」要求严格控制语言依赖:题目要求很简单,答案必须靠视觉信息本身得出。

而最终评测结果显示:在「看懂世界」这方面,大模型还没上幼儿园:

 

  •  

    大多数模型的分数,聚集在明显低于平均3岁儿童的区间;

     

  •  

    Gemini-3-Pro-Preview是唯一稳定超过3岁基线的模型,但距离6岁儿童仍差约20个百分点。

百姓社区更多>>

Meta超轻薄头显渲染图流出:高端市场的新挑战者 iPhone 18标准版外观曝光:晃眼一看iPhone17Pro iOS26.3正式版即将发布!这3类情况适合升级! 2026 年第一台新 iPhone:国补后不到 4000,但不推荐买 “爱马仕橙”iPhone 17 Pro助苹果终结三年销售颓势,中国市场猛增38% 华为Pura X2最新爆料:电池容量预计达5500mAh! 鸿蒙手机不会用?试试负一屏的“玩机助手” 2025年中国手机市场出货量3.07亿部,同比下降2.4% iQOO 15 Ultra图赏 硬核科技风格蜂窝能量矩阵 硅谷甘愿“裸奔”,中国大厂连夜“铺路”:Moltbot凭什么横扫中美? 高并发业务如何兼顾稳定与弹性?华为云TaurusDB给出“存算分离”新解 姚顺雨现场颁奖,吉嘉铭、董冠霆等15位青年人才获腾讯青云奖学金 抖音:“年货节”期间品牌礼盒成交额同比增长22% 大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题 Anthropic一夜震撼升级:Claude获得「永久记忆」!全球打工人变天 每经热评|1200亿元大单不可戏言 容百科技董事长从头到尾真不知情? “深山林下灵芝第一品牌”,什么来路?有哪些疑点? 北京将迎空中花园!副中心六环高线公园启动段预计今年五一开放 巨人网络:《超自然行动组》推出AI大模型玩法,AI与真人玩家对局数超2500万次 华西证券:首予八马茶业“买入”评级 高端茶企的发展现状与增长密码 Laraki Borac:摩洛哥超跑梦想的未竟之作 XSKY发布AIMesh,想帮AI工厂打通数据“任督二脉” 2026款睿蓝8焕新,续航、动力、舒适、安全全维升级 既有传统,也有NK风格?全新宝马5系长这样,你会喜欢吗? 智谱成为全球大模型第一股,外国人这么看 三大指数开盘涨跌不一 AI概念多股高开 追觅电视斩获CES媒体大奖,Aura Mini LED与AI技术实力获国际认可 微言 | “死了么” APP爆火,戳中独居群体最痛的安全感缺口 全员Pro Max?多款旗舰手机阵容要变! 小米17 Pro系列背屏支持查看股票行情:需升级至澎湃OS 3.0.40.0