加速蛋白质工程,微软开发蛋白突变效应预测AI框架µFormer

编辑 | KX

蛋白质工程是合成生物学领域的重要研究方向之一。近年来,AI 辅助的蛋白质工程逐渐发展成为一种高效的蛋白质分子设计新策略。


近日,微软研究院科学智能中心的研究人员提出了深度学习框架 µFormer,其将预训练的蛋白质语言模型与定制设计的评分模块相结合,从而预测蛋白质的突变效应。

µFormer 在预测高阶突变体、建模上位(epistatic)相互作用和处理插入方面,实现了最先进的性能。

通过将 µFormer 与强化学习框架相结合,可以高效探索广阔的突变空间,涵盖数万亿个突变候选物,来设计活性增强的蛋白质变体。该模型成功预测了由于酶活性增强而表现出 2000 倍细菌生长率增加的突变体。

相关研究以「Accelerating protein engineering with fitness landscape modeling and reinforcement learning」为题,发表在预印平台 bioRxiv 上。

论文链接:https://doi.org/10.1101/2023.11.16.565910

蛋白质工程旨在设计具有所需功能和特性的蛋白质。通过优化蛋白质序列实现的高效蛋白质工程可以极大地促进生物药物、酶等的设计。实现这一目标的一种有前途的方法是将蛋白质序列准确地映射到其相应的功能上,从而能够高效地搜索具有所需功能的序列。

零样本方法无需依赖同源物或多序列比对 (MSA) 即可预测突变效应,减少了一些依赖性,但在预测蛋白质的多样性特性方面却存在不足。

基于深度突变扫描 (DMS) 或 MAVE 数据训练的基于学习的模型,已被用于单独或与 MSA、语言模型一起预测适应度景观。尽管如此,当实验数据稀疏时,这些数据驱动的模型往往难以做出合理的预测。

用于蛋白突变效应预测的深度学习框架 µFormer

为了解决以上问题,微软研究院的研究人员提出了一个深度学习框架 µFormer,该框架具有三个基于学习的评分模块,旨在捕捉不同序列特征水平的蛋白质突变效应:单残基有效性、基序级模式和序列级语义。结合预训练的蛋白质语言模型,µFormer 能够更准确、更全面地模拟蛋白质适应度景观,减少对观测数据的依赖。

µFormer 概览
图示:µFormer 概览。(来源:论文)

µFormer 是一种用于突变效应预测的两步解决方案,即预测突变蛋白质序列的适应度得分。µFormer 由一个自监督蛋白质语言模型和一组监督评分模块组成。

首先,通过在大量未标记蛋白质序列数据集上预训练掩蔽蛋白质语言模型 (PLM)。在预训练阶段,蛋白质语言模型使用从 UniRef50 收集的超过 3000 万个蛋白质序列进行训练。通过采用掩蔽语言建模策略,蛋白质语言模型学会在给定蛋白质序列中其余残基的情况下预测目标位置上最可能的氨基酸。

其次,通过使用集成到预训练模型中的三个…
完整内容请查看原文链接



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

加速蛋白质工程,微软开发蛋白突变效应预测AI框架µFormer

https://www.gptnb.com/2024/09/16/2024-09-15-auto5-xXVxQg/

作者

ByteAILab

发布于

2024-09-16

更新于

2025-03-21

许可协议