首页 > 百姓社区 > 百姓社区 > 苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

发布时间:2025-06-06 16:18:19来源: 18638159832
AI「思考」只是假象?
 
  刚刚,一项来自苹果的重磅研究揭示了「大推理模型(LRM)」背后的惊人真相——这些看似聪明的模型,在面对稍复杂点的题目时,准确率居然会全面崩溃!
 
  随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃!
 
  这太违背直觉了,似乎Scaling Law在推理时完全失效了。
 
  值得一提的是,论文作者中还有Samy Bengio,他也是图灵三巨头Yoshua Bengio的兄弟。
 
 
  论文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
 
  LRM模型因能「写出思考过程」而备受期待,被认为是AI推理能力跃升的关键。
 
 
  DeepSeek-R1 模式的开源开启了LLM进化到LRM的进程
 
  但研究人员通过可控游戏环境的系统实验证明:现有LRMs不仅在高复杂度任务上力不从心,甚至还展现出一种「反常的推理崩溃曲线」——题目越难,它们反而越不「努力」。
 
  研究还通过在相同计算token预算下对比思考模型与普通模型,发现:
 
  不同于大多数仅衡量最终性能的研究,这项最新研究分析了它们实际的推理轨迹——深入观察其冗长的「思考」过程。
 
  三种不同的性能区间
 
  与以往主要依赖数学问题来评估语言模型推理能力的研究不同,本研究引入了可控的解谜环境。
 
  这种环境可以精确调节问题的复杂度,同时保持逻辑过程的一致性,从而更严谨地分析模型的推理模式和局限性。
 

百姓社区更多>>

Meta超轻薄头显渲染图流出:高端市场的新挑战者 iPhone 18标准版外观曝光:晃眼一看iPhone17Pro iOS26.3正式版即将发布!这3类情况适合升级! 2026 年第一台新 iPhone:国补后不到 4000,但不推荐买 “爱马仕橙”iPhone 17 Pro助苹果终结三年销售颓势,中国市场猛增38% 华为Pura X2最新爆料:电池容量预计达5500mAh! 鸿蒙手机不会用?试试负一屏的“玩机助手” 2025年中国手机市场出货量3.07亿部,同比下降2.4% iQOO 15 Ultra图赏 硬核科技风格蜂窝能量矩阵 硅谷甘愿“裸奔”,中国大厂连夜“铺路”:Moltbot凭什么横扫中美? 高并发业务如何兼顾稳定与弹性?华为云TaurusDB给出“存算分离”新解 姚顺雨现场颁奖,吉嘉铭、董冠霆等15位青年人才获腾讯青云奖学金 抖音:“年货节”期间品牌礼盒成交额同比增长22% 大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题 Anthropic一夜震撼升级:Claude获得「永久记忆」!全球打工人变天 每经热评|1200亿元大单不可戏言 容百科技董事长从头到尾真不知情? “深山林下灵芝第一品牌”,什么来路?有哪些疑点? 北京将迎空中花园!副中心六环高线公园启动段预计今年五一开放 巨人网络:《超自然行动组》推出AI大模型玩法,AI与真人玩家对局数超2500万次 华西证券:首予八马茶业“买入”评级 高端茶企的发展现状与增长密码 Laraki Borac:摩洛哥超跑梦想的未竟之作 XSKY发布AIMesh,想帮AI工厂打通数据“任督二脉” 2026款睿蓝8焕新,续航、动力、舒适、安全全维升级 既有传统,也有NK风格?全新宝马5系长这样,你会喜欢吗? 智谱成为全球大模型第一股,外国人这么看 三大指数开盘涨跌不一 AI概念多股高开 追觅电视斩获CES媒体大奖,Aura Mini LED与AI技术实力获国际认可 微言 | “死了么” APP爆火,戳中独居群体最痛的安全感缺口 全员Pro Max?多款旗舰手机阵容要变! 小米17 Pro系列背屏支持查看股票行情:需升级至澎湃OS 3.0.40.0