人类科学家三年的工作量,如今AI两周就能轻松搞定!
最近,来自西湖大学的自然语言处理实验室发布了DeepScientist系统,这也是首个具有完整科研能力,且在无人工干预下,展现出目标导向、持续迭代、渐进式超越人类研究者最先进研究成果的AI科学家系统。

△对比DeepScientist与人类专家的研究进展
在AI文本检测任务中,DeepScientist仅用两周时间就实施和验证了超过1000种不同的假设,在此期间取得了相当于人类三年的进展。
在RAID数据集测试中,DeepScientist设计的方法实现了7.9%的AUROC提升,成功超越了人类现有SOTA方案。
另外DeepScientist还在智能体失败归因、LLM推理加速等任务上也分别达成了新的SOTA。

下面是更多详细内容介绍。
从“科研助理”到“首席科学家”:AI科研模式的变革
过去的AI Scientist系统,如果不给定一个清晰明了的科研目标,就很容易陷入对现有知识的机械组合与无效试探的窠臼中,最终形成的科研产出在人类专家看来缺乏焦点,科学价值不高。
它们更像是能力超群的科研助理,而不是能独立指引方向的科学家。
DeepScientist的出现改变了这一现状,它不再等待人类告诉它“研究什么”,而是开始主动思考“什么值得研究”,它可以:
- 主动识别前沿研究的根本性局限,
- 提出全新的科学构想以解决局限性问题,
- 自动编写代码、执行实验、设计分析实验,整理实验结果,
- 撰写结构完整的科研论文,开源可重现代码。
简而言之,这种从“随机发现”到“长期主动式探索”的角色转变,标志着AI已经正式涉足以往只有顶尖人类心智才能胜任的、最具创造性的科学发现过程。