首页 > 百姓社区 > 百姓社区 > AlphaGo之父找到创造强化学习算法新方法:让AI自己设计

AlphaGo之父找到创造强化学习算法新方法:让AI自己设计

发布时间:2025-10-28 17:02:03来源: 13899775532

强化学习是近来 AI 领域最热门的话题之一,新算法也在不断涌现。

那么,问题来了:AI 能不能自己发现强大的强化学习算法呢?

近日,谷歌 DeepMind 团队在 Nature 上发表的一篇论文探索了这一可能性。并且,他们得到了非常积极的结果:机器确实能够自主发现性能达到 SOTA 的强化学习规则,并且其表现优于人工设计的规则。



标题:Discovering state-of-the-art reinforcement learning algorithms

地址:https://www.nature.com/articles/s41586-025-09761-x

值得注意的是,该团队的负责人、通讯作者是强化学习领域的引领研究者 David Silver,他也曾领导了著名的 AlphaGo 项目,常被称为「AlphaGo 之父」。截至目前,David Silver 的引用量已接近 27 万。本研究共有四位共同一作:Junhyuk Oh、Greg Farquhar、Iurii Kemaev、Dan A. Calian。



具体到方法上,该团队的思路是:在大量复杂环境中,基于大量智能体的经验积累,进行元学习(meta-learning)。这个方法能够发现智能体在更新策略与预测时所遵循的强化学习规则。

该团队还进行了大规模实验,结果发现这一「自动发现的规则」在经典的 Atari 基准测试上超越了所有现有方法,并且在若干它从未见过的高难度基准测试上也优于多种 SOTA 强化学习算法。

这一研究结果可谓意义重大。它意味着,未来实现高级 AI 所需的强化学习算法或许将不再依赖人工设计,而是能够从智能体自身的经验中自动涌现与进化

发现方法

该团队的发现方法涉及两种类型的优化:智能体优化元优化。智能体参数通过将其策略和预测更新至强化学习规则所产生的目标来进行优化。与此同时,强化学习规则的元参数则通过更新其目标来进行优化,以最大化智能体的累积奖励。



智能体网络

许多强化学习研究考虑的是智能体应该做出什么预测(例如,价值),以及应该使用什么损失函数来学习这些预测(例如,TD 学习)和改进策略(例如,策略梯度)。

该团队没有采用手工设计的方式,而是定义了一个没有预定义语义、富有表现力的预测空间,并通过使用元网络进行元学习,来找出智能体需要优化的内容。他们希望在保留表征现有强化学习算法中核心思想能力的同时,也支持广阔的新颖算法可能性空间。

为此,该团队让由 θ 参数化的智能体除了输出策略 π 之外,还输出两种类型的预测:一个基于观测的向量预测 y (s) 和一个基于动作的向量预测 z (s,a) ,其中 s 和 a 分别是观测和动作 (见下图)。

百姓社区更多>>

Meta超轻薄头显渲染图流出:高端市场的新挑战者 iPhone 18标准版外观曝光:晃眼一看iPhone17Pro iOS26.3正式版即将发布!这3类情况适合升级! 2026 年第一台新 iPhone:国补后不到 4000,但不推荐买 “爱马仕橙”iPhone 17 Pro助苹果终结三年销售颓势,中国市场猛增38% 华为Pura X2最新爆料:电池容量预计达5500mAh! 鸿蒙手机不会用?试试负一屏的“玩机助手” 2025年中国手机市场出货量3.07亿部,同比下降2.4% iQOO 15 Ultra图赏 硬核科技风格蜂窝能量矩阵 硅谷甘愿“裸奔”,中国大厂连夜“铺路”:Moltbot凭什么横扫中美? 高并发业务如何兼顾稳定与弹性?华为云TaurusDB给出“存算分离”新解 姚顺雨现场颁奖,吉嘉铭、董冠霆等15位青年人才获腾讯青云奖学金 抖音:“年货节”期间品牌礼盒成交额同比增长22% 大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题 Anthropic一夜震撼升级:Claude获得「永久记忆」!全球打工人变天 每经热评|1200亿元大单不可戏言 容百科技董事长从头到尾真不知情? “深山林下灵芝第一品牌”,什么来路?有哪些疑点? 北京将迎空中花园!副中心六环高线公园启动段预计今年五一开放 巨人网络:《超自然行动组》推出AI大模型玩法,AI与真人玩家对局数超2500万次 华西证券:首予八马茶业“买入”评级 高端茶企的发展现状与增长密码 Laraki Borac:摩洛哥超跑梦想的未竟之作 XSKY发布AIMesh,想帮AI工厂打通数据“任督二脉” 2026款睿蓝8焕新,续航、动力、舒适、安全全维升级 既有传统,也有NK风格?全新宝马5系长这样,你会喜欢吗? 智谱成为全球大模型第一股,外国人这么看 三大指数开盘涨跌不一 AI概念多股高开 追觅电视斩获CES媒体大奖,Aura Mini LED与AI技术实力获国际认可 微言 | “死了么” APP爆火,戳中独居群体最痛的安全感缺口 全员Pro Max?多款旗舰手机阵容要变! 小米17 Pro系列背屏支持查看股票行情:需升级至澎湃OS 3.0.40.0