为什么不同生物在适应相似环境时,会独立演化出相似的功能?一项最新研究从蛋白质的“高阶特征”层面揭示了这一生命演化奥秘的重要机制。
这项研究由中国科学院动物研究所邹征廷研究员团队完成,成功利用人工智能领域的蛋白语言模型,揭示了蛋白高阶特征在功能适应性趋同演化中的关键作用,为理解生命演化之谜提供了新视角。相关成果已于近日发表于国际学术期刊《美国国家科学院院刊》。
“高阶特征”破解传统研究局限
趋同演化是自然界中一种引人入胜的现象。蝙蝠与齿鲸本是演化上差异巨大的生物类群,却都独立发展出了通过回声定位感知环境的能力。长久以来,科学家们致力于探索这类表型趋同背后的分子机制。
传统研究方法主要聚焦于蛋白质序列中单个氨基酸位点的趋同变化。然而,越来越多的证据表明,即使没有明确的位点趋同,同源蛋白仍可能通过高阶结构或理化特征的趋同演化实现功能上的相似性。
“这就像用不同的砖块砌出结构相似的墙。”研究团队成员解释,“虽然组成的氨基酸可能不同,但蛋白质整体的物理化学性质和结构却可以趋向一致,从而实现相似功能。”
人工智能助力科学发现
面对这一科学难题,邹征廷团队提出了名为“ACEP”的计算分析框架。该框架的核心创新在于利用了预训练蛋白语言模型。
这类语言模型在海量蛋白序列数据上进行预训练,使其能够捕捉序列中复杂的上下文信息和高阶特征,将蛋白序列转化为包含丰富演化信息的高维嵌入向量。
“蛋白语言模型是能‘读懂’蛋白质‘语法’的人工智能,它能理解氨基酸序列背后更深层次的蛋白结构功能特征和规律。”研究人员介绍。
ACEP分析流程包括三个关键步骤:首先计算目标类群同源蛋白嵌入向量的真实距离,然后通过模拟中性演化过程构建背景距离分布,最后基于分布对真实距离进行统计检验,判断是否存在显著的高阶特征趋同信号。
全面分析验证方法有效性
为验证ACEP框架的有效性,研究团队对真实蛋白数据进行了全面的计算分析。在已知的经典案例中,如在回声定位哺乳动物的Prestin蛋白和景天酸代谢植物的PEPC/PPCK蛋白上,ACEP均检测到了显著的高阶特征趋同信号。
更令人振奋的是,全基因组筛选结果显示,ACEP在蝙蝠与齿鲸中识别出数百个具有趋同信号的候选基因。功能富集分析表明,其中部分基因显著关联“感官感知”等与回声定位密切相关的功能条目。
这些基因不仅包含已知的回声定位基因,还发现了多个新候选基因。部分候选基因还得到了正选择检验的支持,增强了其发生适应性趋同的可信度。
推动演化生物学研究范式转变
该研究首次系统揭示了蛋白高阶特征趋同是适应性演化的重要机制,突破了传统方法仅关注氨基酸位点趋同的局限。
“这项工作不仅深化了对生命演化规律的认识,也展示了人工智能技术在解析复杂生物问题方面的强大潜力。我们希望未来能实现人工智能技术在演化生物学中更广泛、有效的应用。”邹征廷研究员表示。
ACEP框架为在全基因组水平系统挖掘基因的复杂适应性趋同模式提供了新工具。专家认为,这一方法论突破为理解生物适应性演化的分子基础开辟了新方向,并将参与推动演化生物学研究范式的转变。研究成果对生物医学、生态学等领域也具有重要的启示意义。
研究获得国家自然科学基金和中国科学院战略性先导科技专项等支持。目前,ACEP分析框架的代码已在HuggingFace平台开源共享,供全球科研界使用。
来源:新华社
【来源:京报网】