Nature子刊,快10倍,基于Transformer的逆向蛋白质序列设计方法
编辑 | 萝卜皮
借助深度学习的进步,蛋白质设计和工程正以前所未有的速度发展。然而,目前的模型无法在设计过程中自然地考虑非蛋白质实体。
在这里,瑞士洛桑联邦理工学院(EPFL)的研究人员提出了一种完全基于原子坐标和元素名称的几何 transformer 的深度学习方法,该方法可以根据不同分子环境所施加限制的主链支架,预测蛋白质序列。
使用该方法,研究人员可以以高成功率生产出高热稳定性、催化活性的酶。这有望提高蛋白质设计流程的多功能性,以实现所需的功能。
该研究以「Context-aware geometric deep learning for protein sequence design」为题,于 2024 年 7 月 25 日发布在《Nature Communications》。
设计蛋白质以实现功能性任务是一个具有重大生物学、医学、生物技术和材料科学影响的挑战。一个关键应用领域是蛋白质治疗药物的设计,通过定制蛋白质来精确针对特定疾病,可能比小分子药物更具竞争力。这种方法可能革新许多健康问题的治疗方式,从自身免疫疾病到癌症,提供更有效和个性化的治疗方案。
此外,设计酶功能也是蛋白质设计中的另一个重要挑战。酶作为天然催化剂在生物过程中起关键作用。通过设计新酶或改造现有酶,可以创造出促进自然界中罕见或不存在反应的催化剂。这对多个行业有深远影响,包括制药业和环保技术,例如合成复杂药物分子或分解污染物和塑料。
深度学习方法显著加速了蛋白质设计的成功率和多样性。然而,虽然目前的蛋白质设计模型可以处理多条蛋白质链,但在处理非蛋白质实体时表现较差,限制了其应用范围。
为解决这一问题,EPFL 的研究团队曾经引入了一种深度学习模型——Protein Structure Transformer(PeSTo),一种几何 transformer 架构,作用于原子点云。
PeSTo 结合了 transformer 注意力机制,利用标量和矢量状态表示原子,可以预测几乎任何分子与蛋白质界面的相互作用,包括蛋白质、核酸、脂类、离子、小配体、辅因子或碳水化合物。
在最新的工作中,该团队利用该模型的独特功能,并引入了基于 PeSTo 的蛋白质序列生成器模型 CARBonAra(Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms)。
CARBonAra 基于 PDB 中可用的结构数据进行独特训练,可预测给定主链支架所有位置的氨基酸置信度,这些主链支架可以单独提供,也可以与任何种类和数量的有助于推动序列设计的分子复合。
CARBonAra 使用由几何 transformer 组成的深度学习模型,预测从输入主干支架中在蛋白质序列的每个位置找到给定氨基酸的可能性。CARBonAra 将主链原子(Cα、C、N、O)的坐标和元素作为输入,并使用理想的键角和键长添加虚拟 Cβ 原子。几何形状使用每个原子之间的距离和归一化相对位移矢量来描述。
几何 transformer 操作对所有相邻原子的相互作用进行编码,并使用 transformer 处理标量和矢量信息并更新每个原子的状态。最后,通过将原子状态从原子级别汇集到残基级别,研究人员训练模型以位置特定评分矩阵的形式预测蛋白质序列每个位置的氨基酸置信度。
实际上,这些置信度可以被解释为并映射到概率中,通过表征在给定每种氨基酸类型的预测置信度的情况下正确预测的概率。
与其他模型一样,CARBonAra 通过使用独热编码将特定氨基酸的先前序列信息印入主链原子来支持自回归预测。
最重要的是,CARBonAra 继承了 PeSTo 仅使用元素名称和原子坐标的能力,无需进行大量参数化,从而可以轻松适应各种场景。
因此,CARBonAra 可以解析和处理正在设计的蛋白质主链附近的任何分子实体,其中包括其他蛋白质、小分子、核酸、脂质、离子和水分子等一系列输入。
利用 CARBonAra 固有的灵活性,研究人员能够将 RCSB PDB 中的所有生物组装体纳入他们的训练数据集。
这包括与其他分子实体(如离子、配体、核酸等)复合的蛋白质。训练数据集由大约 370,000 个亚基组成,验证数据集中还使用了另外 100,000 个亚基,所有这些亚基均来自 RCSB PDB 生物组装体,并被注释为最佳可能。
对于从不含非蛋白质分子的骨架结构中分离蛋白质或蛋白质复合物的序列设计,CARBonAra 的表现与 ProteinMPNN 和 ESM-IF1 等最先进的序列预测方法相当,并且计算成本具有竞争力(在 GPU 上比 ProteinMPNN 快约 3 倍,比 ESM-IF1 快 10 倍)。
该方法在从主链结构重建蛋白质序列时,蛋白质单体设计的序列恢复率中值为 51.3%,二聚体设计的序列恢复率中值为 56.0%。尽管恢复率相似,但三种方法的最佳序列之间的序列同一性中值为 54% 至 58% 不等。
此外,研究人员观察到 CARBonAra 可以生成高质量序列,当在单序列模式下使用 AlphaFold 预测时,这些序列可以按预期折叠,TM 分数高于 0.9。
CARBonAra 在蛋白质核心处学习了更紧密的氨基酸包装,从而导致更高的回收率并反映了对典型的埋藏氨基酸取代的较低耐受性,同时允许蛋白质表面具有更高的可变性,除非提供额外的功能或结构限制。
从主干支架进行序列预测的方法主要在具有理想主干几何形状的实验数据上进行训练,当应用于生成的主干时会导致性能下降。在训练过程中向几何图形添加噪声可以缓解此问题。
研究人员通过将 CARBonAra 应用于分子动力学 (MD) 模拟的结构轨迹来表征该方法的稳健性。由于主链构象变化和先前显示低恢复率的病例增加,序列恢复率(53±10%)与一致预测(54±7%)没有显著下降。
同时,研究人员观察到每个位置预测的可能的氨基酸数量普遍减少,这表明探索构象空间正在限制序列空间,从而使得能够设计有针对性的结构构象。 …
论文链接:https://www.nature.com/articles/s41467-024-50571-y
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
Nature子刊,快10倍,基于Transformer的逆向蛋白质序列设计方法