西湖大学DeepScientist:AI科学家自主科研,刷新人类SOTA并撰写论文

Bình luận · 9 Lượt xem

西湖大学文本智能实验室(WestlakeNLP)研发的AI科学家DeepScientist,近日以自主探索能力刷新了人们对人工智能科研的认知。该系统在两周内完成了人类科学家需三年才能达成的科研突破,在三个前沿AI任务中成功超越了人

  西湖大学文本智能实验室(WestlakeNLP)研发的AI科学家DeepScientist,近日以自主探索能力刷新了人们对人工智能科研的认知。该系统在两周内完成了人类科学家需三年才能达成的科研突破,在三个前沿AI任务中成功超越了人类最先进方法(SOTA),其成果通过论文正式向全球学术界公布。

  传统AI科研工具多聚焦于单一环节,如PaperBench用于论文复现,AlphaTensor专注代码优化,CycleResearcher辅助论文撰写。这些系统虽能提升效率,却始终在既定科学范式内运作,缺乏自主质疑与突破框架的能力。DeepScientist的出现打破了这一局限,其核心创新在于构建了闭环迭代的研究流程,能够自主分析现有SOTA方法的短板,并通过故障归因机制提出兼具新颖性与科学价值的研究方向。

  该系统的运作模式将科学发现转化为优化问题。在包含所有可能研究方法的巨大空间中,DeepScientist通过分层三阶段探索循环高效筛选最优解。第一阶段"战略假设"阶段,系统基于开放知识库与发现记忆库生成大量假设,由扮演审稿人的大语言模型(LLM)代理从效用、质量、探索价值三维度评分。第二阶段"实施验证"阶段,采用"上置信界"算法平衡利用高潜力想法与探索不确定性想法,编码代理在沙盒环境中完成实验。第三阶段"分析报告"阶段,仅对超越基线的发现进行深度验证,最终由合成代理生成可复现的研究论文。

  在代理失败归因任务中,DeepScientist识别出人类SOTA方法缺乏反事实推理能力的缺陷,提出包含溯因推理、纠正行动定义与结果预测三步骤的A2P方法,实现了从模式识别到因果推理的升级。在LLM推理加速任务里,系统通过识别稳定后缀模式开发ACRA方法,将吞吐量从190.25 tokens/s提升至193.90 tokens/s。最引人注目的是AI文本检测任务,系统在两周内连续突破,最终PA-Detect方法在RAID基准数据集上将AUROC指标提升7.9%,同时推理速度翻倍。

  实验数据显示,DeepScientist在三个任务中生成超5000个研究想法,经筛选后1100个进入验证阶段,最终21个实现科学突破,整体成功率1.9%。失败案例中60%源于代码实现错误,40%为想法本身无效。这种"大漏斗"式筛选机制确保了计算资源的高效利用,在前沿科学领域,每次验证需消耗相当于完整研究周期的资源,暴力搜索显然不可行。

  该系统撰写的5篇论文经双重评审验证质量。AI审稿人DeepReviewer在盲审中将DeepScientist论文接受率评为60%,显著高于其他AI科学家系统。人类专家委员会(含两位ICLR审稿人与一位领域主席)则一致认可其创新性,论文平均得分5.00,与ICLR 2025提交论文平均分(5.08)接近,两篇获5.67高分。

  这项突破也引发伦理讨论。研究团队通过"红队演练"测试系统安全性,当要求生成计算机病毒时,GPT-5、Gemini-2.5-Pro等基础模型均因安全协议自动终止研究。为防范学术生态风险,实验室决定开源核心发现组件以促进社区发展,但保留分析与报告模块,防止自动生成低质量论文泛滥。这种平衡策略既保护了学术严谨性,又为未来科研模式转型提供了可能。

Bình luận