|

惠安生活网
2000活跃值=1葫芦

首页 > 百姓社区 > 百姓社区 > 苹果拆解AI大脑，推理模型全是「装」的？Bengio兄弟合著

苹果拆解AI大脑，推理模型全是「装」的？Bengio兄弟合著

发布时间：2025-06-06 16:18:19来源： 18638159832

AI「思考」只是假象？

　　刚刚，一项来自苹果的重磅研究揭示了「大推理模型（LRM）」背后的惊人真相——这些看似聪明的模型，在面对稍复杂点的题目时，准确率居然会全面崩溃！

　　随着问题变难，推理模型初始会延长思考，但随后思考深度反而下降，尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃！

　　这太违背直觉了，似乎Scaling Law在推理时完全失效了。

　　值得一提的是，论文作者中还有Samy Bengio，他也是图灵三巨头Yoshua Bengio的兄弟。

　　论文地址：https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

　　LRM模型因能「写出思考过程」而备受期待，被认为是AI推理能力跃升的关键。

　　DeepSeek-R1 模式的开源开启了LLM进化到LRM的进程

　　但研究人员通过可控游戏环境的系统实验证明：现有LRMs不仅在高复杂度任务上力不从心，甚至还展现出一种「反常的推理崩溃曲线」——题目越难，它们反而越不「努力」。

　　研究还通过在相同计算token预算下对比思考模型与普通模型，发现：

　　不同于大多数仅衡量最终性能的研究，这项最新研究分析了它们实际的推理轨迹——深入观察其冗长的「思考」过程。

　　三种不同的性能区间

　　与以往主要依赖数学问题来评估语言模型推理能力的研究不同，本研究引入了可控的解谜环境。

　　这种环境可以精确调节问题的复杂度，同时保持逻辑过程的一致性，从而更严谨地分析模型的推理模式和局限性。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“惠安生活网用户上传并发布"，本平台仅提供信息存储服务。

下一篇:vivo X Fold5将推全新金属漆面绿版，延续全球最轻薄大折叠设计

上一篇:苹果 Apple TV + 全新自然纪录片《The Wild Ones》7 月 11 日全球首播，带你探索濒危物种

百姓社区更多>>

Meta超轻薄头显渲染图流出：高端市场的新挑战者 iPhone 18标准版外观曝光：晃眼一看iPhone17Pro iOS26.3正式版即将发布！这3类情况适合升级！ 2026 年第一台新 iPhone：国补后不到 4000，但不推荐买 “爱马仕橙”iPhone 17 Pro助苹果终结三年销售颓势，中国市场猛增38% 华为Pura X2最新爆料：电池容量预计达5500mAh！鸿蒙手机不会用？试试负一屏的“玩机助手” 2025年中国手机市场出货量3.07亿部，同比下降2.4% iQOO 15 Ultra图赏硬核科技风格蜂窝能量矩阵硅谷甘愿“裸奔”，中国大厂连夜“铺路”：Moltbot凭什么横扫中美？高并发业务如何兼顾稳定与弹性？华为云TaurusDB给出“存算分离”新解姚顺雨现场颁奖，吉嘉铭、董冠霆等15位青年人才获腾讯青云奖学金抖音：“年货节”期间品牌礼盒成交额同比增长22% 大模型听懂语音却变笨？港中深与微软联合解决语音大模型降智问题 Anthropic一夜震撼升级：Claude获得「永久记忆」！全球打工人变天每经热评｜1200亿元大单不可戏言容百科技董事长从头到尾真不知情？ “深山林下灵芝第一品牌”，什么来路？有哪些疑点？北京将迎空中花园！副中心六环高线公园启动段预计今年五一开放巨人网络：《超自然行动组》推出AI大模型玩法，AI与真人玩家对局数超2500万次华西证券：首予八马茶业“买入”评级高端茶企的发展现状与增长密码 Laraki Borac：摩洛哥超跑梦想的未竟之作 XSKY发布AIMesh，想帮AI工厂打通数据“任督二脉” 2026款睿蓝8焕新，续航、动力、舒适、安全全维升级既有传统，也有NK风格？全新宝马5系长这样，你会喜欢吗？智谱成为全球大模型第一股，外国人这么看三大指数开盘涨跌不一 AI概念多股高开追觅电视斩获CES媒体大奖，Aura Mini LED与AI技术实力获国际认可微言 | “死了么” APP爆火，戳中独居群体最痛的安全感缺口全员Pro Max？多款旗舰手机阵容要变！小米17 Pro系列背屏支持查看股票行情：需升级至澎湃OS 3.0.40.0

Copyright 2013-2025 惠安生活网版权所有京ICP备2025131429号-1