400-808-5320

EN

产品咨询订购

您当前所在的位置: 首页 · 新闻资讯 · 产品动态 ·
预测与探索的协同:μProtein框架通过结合适应度景观与强化学习加速蛋白质工程
来源:3777金沙官方VIP认证生物市场中心
日期:2025-12-15
浏览次数:7

摘要概况


近日,微软研究院刘铁岩团队在Nature Machine Intelligence(Top期刊,IF 23.9)发表题为 “Accelerating protein engineering with fitness landscape modelling and reinforcement learning” 的研究,针对蛋白质工程中组合序列空间过于庞大、上位效应难以预测、实验探索效率低等难题,提出μProtein框架。该框架将高精度突变效应预测模型μFormer与强化学习探索算法 μSearch深度耦合,仅依赖单点突变实验数据,即可高效发现高阶功能突变体,捕捉突变之间的上位效应。在 TEM-1 β-内酰胺酶耐药性优化的应用实例中,μProtein设计了具有超高功能提升的β-内酰胺酶多点突变体,其活性超过已知最高水平,并发现了自然界尚未报道的耐药突变。这为大规模蛋白质序列优化提供了全新而高效的策略。



标题:Accelerating protein engineering with fitness landscape modelling and reinforcement learning  

期刊:Nature Machine Intelligence  

原文链接:https://doi.org/10.1038/s42256-025-01103-w  

代码:https://github.com/microsoft/Mu-Protein

复制链接至浏览器查阅或文末“阅读原文”查看文章内容


背景拓展


蛋白质工程的目标是通过修改天然蛋白质的氨基酸序列,使其在特定条件下(如高温、强酸或存在抗生素)表现出更强的功能。然而,这项任务面临一个根本性挑战:可能的突变组合数量极其庞大。以一个包含300个氨基酸的典型蛋白质为例,即使只考虑其中数个位点的突变,每处有20种氨基酸的可能,组合数也轻松突破万亿级别。而真正具有高功能的突变体在如此巨大的“序列空间”中极为稀少,如同大海捞针。


更复杂的是,多个突变的效果往往不是简单叠加的。有时两个单独效果平平的突变,组合后却能显著提升功能;有时一个看似有害的突变,在特定背景下反而成为关键。这种非线性相互作用被称为上位效应(epistasis),使得最佳突变体的进化路径难以预测,而传统逐个筛选测试的方法效率极低。


目前,高通量实验技术(如深度突变扫描)通常只能系统评估单点突变——即每次只改变一个氨基酸。要全面测试所有双点甚至三点突变,实验成本几乎不可承受。因此,如何仅凭有限的实验数据,准确预测复杂突变的功能,并高效锁定最有潜力的组合,成为蛋白质工程的核心瓶颈。



图1 蛋白质适应度景观


人工智能辅助蛋白质工程的新思路:不止于预测,更要主动探索 


近年来,人工智能被广泛用于辅助蛋白质工程。主流预测模型构建方法通常是将氨基酸序列转化为数值向量,再训练模型学习“序列—功能”之间的映射关系。这类预测模型能在输入新序列后预测其功能强度,但存在明显局限:一是预测精度仍有不足,尤其在面对多点突变时难以捕捉上位效应;二是大多无法主动提出值得实验验证的候选序列。


回到本文中,微软研究院刘铁岩团队近期在《Nature Machine Intelligence》发表的研究,提出了一种名为 μProtein 的新框架,试图同时解决上述问题。其核心思路是将高精度的突变效应预测模型(μFormer)与智能搜索算法(μSearch)深度耦合,形成“预测+探索”的双引擎机制。


具体来说,μFormer负责准确预测每一个可能的突变体的功能——即适应度景观(fitness landscape),其中每个点代表一个蛋白质序列,高度代表其功能强弱;而μSearch则像一位智能导航员,在这张适应度景观“地图”上主动探索,逐步逼近功能最强的区域,而非盲目尝试所有的可能。因此,该框架的核心在于预测模型有足够的准确度,而智能搜索算法有优秀的探索效率。



图2 μProtein工作流程


1. μFormer精准预测模块:仅用单点数据,也能预测复杂突变


为了获得足够的预测准确度,从而准确预测每一个突变序列的功能。μProtein的预测模块μFormer采用了一种研究团队自己新训练的蛋白质语言模型,沿用了课题组此前提出的成对掩码预训练策略(PMLM),该策略通过模拟进化过程中残基对的协同关系,使模型能够学习氨基酸之间的长程依赖和结构约束。


关键突破在于:μFormer仅需单点突变的实验数据进行微调,就能准确预测包含多个突变(甚至插入或缺失)的序列功能。在多个公开数据集上的评估显示,其预测性能优于当前主流模型如DeepSequence和ProteinNPT。更重要的是,它能有效捕捉突变之间的上位效应——这正是传统线性模型难以处理的痛点。

图3 μFormer在多个基准数据集中的表现优于主流突变效应预测模型



图4 μFormer在多个高阶突变体数据集中的表现优于DeepSequence和ProteinNPT


研究人员还对TEM-1 β-内酰胺酶(一种常见耐药酶)的突变体嵌入向量进行了t-SNE降维可视化。结果显示,高活性突变体(如超广谱β-内酰胺酶,ESBL)在低维空间中明显聚集成簇,且沿主成分方向与实验测得的功能梯度高度一致。这表明μFormer并非简单计数突变数量,而是真正学习到了序列与功能之间的深层关联。



图5 从μFormer提取的TEM-1突变体嵌入向量经t-SNE降维可视化。红点代表ESBL,其他点由实验测量的适应度值分位数排名着色。


2. 搜索算法 μSearch:智能探索最优突变体


有了可靠的预测模型,下一步是如何在天文数字般的序列空间中高效搜索。为此,研究团队设计了基于强化学习的搜索算法μSearch。

μSearch的工作方式类似于爬山:从野生型蛋白出发,每次尝试在一个位点替换一个氨基酸,相当于“选择方向走一步”;然后由μFormer立即评估新序列的功能得分。如果得分提升,则继续沿该方向攀登;若得分下降,则及时调整策略,探索其他路径。通过不断试错与策略更新,μSearch能够避开功能低谷,快速逼近高活性区域,登上全局最高峰,即设计出全局最优突变体。

在多种模拟适应度景观上的对比实验表明,μSearch在发现高功能序列的效率上显著优于其他八种现有算法。



图6 μSearch 与主流适应度景观探索算法的性能对比。


a–c 为多轮搜索结果:

分别展示 μSearch 与主流算法在通用景观(a)、

Rosetta 设计景观(b)、

AAV 附加向性景观(c)中的表现、

(d)为单轮搜索结果(以 μFormer 为预测器)


实验验证:超越天然的耐药突变 


为了进一步验证整个μProtein框架的实用性,研究团队在TEM-1 β-内酰胺酶上进行了实验验证。目标是提升该酶对头孢噻肟(一种头孢菌素类抗生素)的抵抗能力。他们仅使用约5000个单点突变的实验数据训练μFormer,随后由μSearch生成包含2–3个突变的候选序列,并从中筛选出功能显著增强的组合。


实验结果显示,μProtein设计的双突变体G236S;T261V的耐药活性甚至超过了已知的经典四突变体(A40G;E102K;M180T;G236S),充分体现了上位效应带来的功能跃升。更值得注意的是,该框架首次发现了一个在自然界耐药菌中从未报道过的突变T261I。结构分析显示,该位点位于活性口袋附近,可能通过重塑氢键网络影响底物结合,为理解β-内酰胺类抗生素的耐药机制提供了全新线索。


此外,与随机设计相比,μProtein提出的序列具有更高的实验阳性率,说明其不仅预测准确,而且能有效减少实验负担,提升蛋白质工程效率。



图 7 μProtein 设计高功能TEM-1序列。


a为强化学习与随机设计序列的阳性率对比;

b为突变体相对野生型生长倍数(酶活性);

c为头孢噻肟压力下与无抗生素的生长倍数比(耐药活性);

d为ESBL 天然突变(内环)与 RL 设计突变(外环)分布;

e为Thr261 氢键网络;

f为RL 设计与天然突变体对比。


全文总结


1. 核心贡献

μProtein 框架的核心突破在于构建了“高精度预测—高效探索”的协同机制:μFormer 实现了仅基于单点突变数据即可准确预测高阶突变(包括双点、三点甚至插入缺失)的功能效应,有效捕捉了突变间的上位性互作;μSearch 则通过强化学习策略,解决了在超大规模序列空间中低效搜索的问题,显著提升了高功能突变体的发现效率。


2. 局限与未来方向

尽管成果显著,文章在若干关键问题上仍有待深入探讨。结合个人浅见,提出以下几点思考:

小样本适应性论证不足:实验阶段基于约 5000 个单点突变数据对 μFormer 进行微调,这在高通量场景下尚可接受,但在更小样本条件下(如仅数百个甚至数十个实验数据),模型性能是否依然精准,缺乏系统验证。


缺乏多轮主动学习闭环:研究中,预测模型仅经一次微调,后续实验获得的新序列数据未重新纳入循环。而”设计—实验—反馈”式的多轮主动学习策略已在 ALDE、EvolvePro 等策略中被证明可显著降低对数据的需求量,是连接计算预测与湿实验的关键桥梁。


多模态信息整合潜力未释放:未来可进一步融合预测性蛋白质 3D 结构(如 AlphaFold2 输出)、动态构象或能量景观等多模态特征,以增强对功能机制的物理理解。这也是文中在讨论部分提到的。


作者:卞佳豪

编辑排版丨品牌

审核丨市场部、研发中心

图片丨来源于3777金沙官方VIP认证新酶、网络(侵删)


往期专题内容推荐

Previous Featured Content


第八期 | 蓝莓深处的秘密:一个“不守规矩”的酶,如何被浙大团队改造成“超级工匠”?

第七期 | 一次“翻身”,催化效率提升八倍——羟腈裂解酶构象动态机制新发现

第六期 | 无细胞 x 双功能微珠液滴——酶进化的加速器!

第五期 | 一周进化5000倍!这套“超突变系统”让蛋白质进化进入快车道

第四期 | 酶制剂保鲜魔法——解码酶制剂冻干工艺的开发

第三期 | 精准诊断的关键:打造超洁净分子酶——核酸残留的清除秘籍!

第二期 | “粮草先行” !探寻大肠杆菌高密度发酵培养基的奥秘

第一期 | 特种酶的智造—“酶之舞,需编之”


微信

官方公众号

全国服务热线: 400-808-5320

研发制造中心: 武汉市高科园三路9号武汉精准医疗产业基地6栋

全球营销中心: 上海市奉贤区环城西路3006号3777金沙官方VIP认证大厦

微信

官方公众号

3777金沙官方VIP认证
联系我们

全国服务热线: 400-808-5320

研发制造中心: 武汉市高科园三路9号武汉精准医疗产业基地6栋

全球营销中心: 上海市奉贤区环城西路3006号3777金沙官方VIP认证大厦

Copyright © 3777金沙官方VIP认证. All Rights Reserved 网站建设

网站地图 | 法律声明 | 隐私政策 |