Nat. Mach. Intell.
DRUGAI
酶的催化活性与pH之间的关系,尤其是酶在最适pH值(pHopt)下的功能表现,对于生物技术应用至关重要。因此,开发能够预测pHopt的计算方法,将有助于推动酶的发现与设计,不仅能够准确识别在特定pH条件下高效作用的酶,还能够揭示序列与功能之间的关联关系。在本研究中,研究人员提出并评估了多种机器学习方法用于pHopt的预测,进行了超过11,000个模型实例的超参数优化和训练。结果表明,基于语言模型嵌入的模型在pHopt预测方面显著优于其他方法。研究人员进一步构建并发布了EpHod模型,其在预测pHopt方面表现最佳,并已向科研界公开。EpHod能够从酶的序列数据中直接学习与pHopt相关的结构和生物物理特征,包括残基到催化中心的距离以及溶剂分子的可及性。总体而言,EpHod为pHopt预测提供了有前景的进展,并有望加速酶技术的开发。
酶的活性受反应环境pH值显著影响,超出特定pH范围后,酶通常会因催化失活或结构不稳定而活性下降。虽然大多数已知酶的最适pH(pHopt)接近中性pH 7,但也有部分酶在极酸性或极碱性条件下表现出最优活性,pHopt可低至1.0或高达12.5。在工业生化过程中,酶常被应用于远离其pHopt的环境中,导致活性大幅下降。因此,提升酶的pH耐受性成为当前研究和工程设计的热点。
一种常见策略是通过与已知酶的序列同源性,在极端pH环境的生物或宏基因组中挖掘天然酶,但这类酶可能存在催化活性不足的问题。另一种方式是对已有活性酶进行改造,以调整其pH–活性曲线,例如通过固定化、化学修饰或蛋白质工程等方法。机器学习为这些策略带来了显著提升,能够加速筛选过程并精确预测目标pHopt,学习酶序列与pH之间的复杂关系。近年来,已有研究尝试用传统机器学习在小规模数据集上预测酶的pHopt,但受限于数据规模,效果有限。
在本研究中,研究人员构建了两个pHopt数据集(催化pHopt与生物体环境pHopt),系统评估多种机器学习方法,并对每种方法进行了超参数优化。最终提出的最佳模型EpHod,基于ESM-1v蛋白语言模型的嵌入向量,仅凭序列即可预测酶的pHopt,在独立测试集上达到1.25 pH单位的均方根误差(RMSE)。分析表明,EpHod能够有效关注影响结合和催化的核心残基,以及调控结构稳定性的表面残基。与现有生物物理方法相比,EpHod在预测催化pHopt方面精度更高,且对与训练数据差异较大的新酶序列表现出良好的泛化能力。
结果
用于模型训练的最适pH数据集
研究人员从BRENDA数据库中整理了一个包含9,855条酶的pHopt数据集,这些酶均附有实验测得的最适活性pH值。该数据集涵盖了生命树上的多种生物来源,并包含酶委员会(EC)编号定义的七大类酶,其中水解酶类占比最高。研究人员将pHopt数据集划分为训练集、验证集和测试集,分别包含7,124条、760条和1,971条序列。验证集中的序列与训练集的序列同源性低于20%;测试集的分布则与训练集保持一致,以便于进行全面对比分析。此外,测试集中的一个子集(999条序列)经过特别筛选,与训练集同源性也低于20%,用于评估模型在新颖序列上的泛化能力。
鉴于pHopt数据集的规模有限,研究人员假设通过在更大规模的环境pH值数据集上进行预训练,能够利用环境pH与胞外酶pHopt之间的关联,从而提升pHopt的预测性能。因此,研究人员从BacDive和NCBI数据库中整理出一个包含约190万个细菌分泌蛋白的pHenv数据集,并将其与相应微生物的最适生长pH值进行匹配。为了确保这些蛋白确实位于胞外环境,仅保留了使用SignalP 6.0预测为含有信号肽的分泌蛋白。由于微生物能通过稳态机制将胞内pH保持在中性附近,因此选用胞外蛋白更能反映环境pH对酶功能的影响。研究人员利用该pHenv数据集进行迁移学习实验,将其作为预训练集,再在pHopt上微调,与直接在pHopt训练的模型进行性能对比。为避免预训练中出现数据泄露,pHenv训练集中的序列与pHopt测试集的同源性均低于20%。
此前的研究表明,使用标签分布不均的数据集训练模型,容易导致模型对高密度区域过拟合,从而在稀疏区域产生较大误差。研究人员发现,pHopt与pHenv数据集的标签分布高度不均,pHopt中有约75%的数据集中在pH 6到8之间,94%集中在pH 5到9之间。考虑到在极酸或极碱条件下仍具有活性的酶在生物技术中的应用前景,研究人员采用多种损失函数重加权策略,以标签密度的倒数对样本加权,使模型更关注低频区域。在每种机器学习方法的超参数优化过程中,研究人员从五种重加权技术中选择表现最优的,包括基于分箱大小倒数的加权方法和基于标签密度平滑分布的加权方法。
语言模型嵌入优于其他特征表示方法
为了识别最有效的pHopt预测方法,研究人员系统评估了多种机器学习模型和蛋白质序列的数值表示方式,包括独热编码、氨基酸组成(AAC)、iFeature专家特征集,以及来自蛋白语言模型(PLMs)的嵌入。PLMs以掩码或预测下一个残基为目标,通过自监督训练,能生成高度表达蛋白性质的嵌入向量。研究人员选用了多种代表性PLM模型,包括ESM-1b、ESM-1v、ProtT5、Tranception、ProGen2和CARP。
在机器学习模型方面,研究人员涵盖了传统方法(岭回归、k近邻回归、支持向量回归、随机森林、XGBoost)以及多种神经网络架构(前馈神经网络、卷积神经网络、扩张CNN、循环神经网络)。对于逐残基的语言模型嵌入,还训练了轻量注意力模型(LAT),并提出多个改进版本,包括残差LAT(RLAT)、感知注意力(PAT)和扩张卷积LAT(DCAT)。由于训练深度神经网络的计算代价较高,这些注意力模型仅基于ESM-1v的嵌入进行训练。此外,在pHopt验证集上表现最佳的也是ESM-1v的平均嵌入,因此被选为核心模型。
在不同特征表示和模型类型的组合中,研究人员为每组训练了最多200个模型实例,采用网格搜索或随机搜索探索超参数空间,总共训练了11,550个模型。最终根据验证集上的性能选择最优模型,并在独立的测试集上进行评估。
评估结果显示,使用语言模型嵌入的模型在预测pHopt时显著优于其他特征表示,在测试集上取得了更高的R²值。值得注意的是,不使用语言模型嵌入时表现最好的方法为结合iFeature特征选择(RFE)与随机森林的iFeatureRFE–RForest,其在与训练集同源性低于20%的测试序列上达到R²为0.415。相比之下,使用ESM-1v平均嵌入的SVR模型在同一子集上达到了R²为0.644,提升达55%,凸显了语言模型嵌入的优势。此外,iFeatureRFE–RForest方法也优于所有未使用PLM嵌入的神经网络模型。这一发现与之前的研究结果一致,即在酶最适温度预测任务中,深度学习未必优于专家特征工程。
迁移学习在性能上带来小幅提升
在使用PLM嵌入与神经网络的方法中,表现最佳的是基于ESM-1v逐残基嵌入的残差轻量注意力模型(ESM-1v–RLAT)。为探索进一步的性能提升,研究人员基于该模型架构实施了迁移学习,即先在pHenv数据集上预训练,再在pHopt数据集上微调。考虑到计算资源限制以及避免覆盖自监督训练中获得的重要信息,研究人员在预训练和微调阶段均保持ESM-1v模型参数冻结。
迁移学习模型(ESM-1v–RLATtr)相较于仅在pHopt上训练的ESM-1v–RLAT模型,在R²得分和RMSE上提升了约5%。不过,ESM-1v–RLATtr的表现与使用平均ESM-1v嵌入训练的SVR模型(ESM-1v–SVR)相当,在测试集中序列同源性低于20%的样本上,两者R²分别为0.648和0.644。此外,研究人员还尝试了ESM-1v–SVR与ESM-1v–RLATtr的集成模型,进一步提升了性能,R²达到了0.662。该集成方法被命名为EpHod(enzyme pH optimum prediction with deep learning),是整体表现最优的预测模型。
EpHod在不同酶序列间具有良好泛化能力
为全面评估EpHod的性能,研究人员分析了训练策略对预测精度的影响,以及模型在不同类型酶序列上的泛化能力。考虑到已有研究指出深度学习模型在测试序列与训练集同源性低于50%时可能表现较差,研究人员进一步考察了EpHod在不同同源性水平下的预测性能。结果显示,随着训练与测试集之间序列同源性的下降,EpHod的性能略有下降,但下降幅度非常小,RMSE仅增加不到0.12 pH单位,说明其在低同源性酶序列上仍保持较强的预测能力。
此外,研究人员还分析了pHopt标签分布对模型性能的影响,并检验了训练过程中对损失函数进行重加权的效果。具体而言,比较了使用标签分布倒数加权(bin-inverse)训练的ESM-1v–RLAT模型与未加权模型的表现。结果表明,未加权模型在极酸性(pH<5)和极碱性(pH>9)区域的预测性能显著下降。而加权训练显著提升了模型在这些区域的F1分数,分别提高了26%和250%,说明该方法在应对数据稀疏区域方面非常有效。需要指出的是,超参数优化过程中发现不同重加权策略的效果差异较小,其中bin-inverse方法已足以取得较优结果。
研究人员还评估了EpHod在不同EC酶分类编号(七大类)下的预测性能变化。通过留一类交叉验证(leave-one-group-out CV),即每次从训练集中剔除某一类EC编号的酶,考察模型在该类酶上的泛化能力。当所有EC类都参与训练时,模型在各类酶上的RMSE范围为0.78到1.44 pH单位;当剔除某一类后,误差有所上升,最大为2.48 pH单位。结果还显示,SVR模型在应对未见EC类酶时比RLAT神经网络具有更好的泛化性能。整体而言,EpHod能够有效学习与pHopt相关的序列特征,对低频或未见酶类具有一定的适应能力。
EpHod能识别与酶pHopt相关的结构特征
蛋白质结构特征与酶的最适pH之间的关系已有较多文献报道。蛋白质结构中氨基酸的局部分布会影响其在不同pH条件下的稳定性和关键催化相互作用。虽然目前尚未建立统一机制,但一般认为,能适应极端pH环境的酶,其表面富含带负电(如Asp、Glu)或带正电(如Arg、Lys)残基。多项蛋白工程研究已表明,通过增加表面带电残基的数量,可以将pHopt调整至更酸性或更碱性的范围。此外,靠近催化位点的残基对周围环境的原子状态及催化残基的pKa具有更大影响,因此通过突变这些残基以调整催化pKa,是调控酶pHopt的一种有效策略。
基于这些已知机制,研究人员分析了EpHod是否在训练过程中自动学习到这些结构特征。研究人员选用了残差注意力模型RLATtr的softmax输出,对每个残基的注意力权重进行分析。结果显示,部分残基具有显著高的注意力权重,表明这些残基在pHopt预测中起到了关键作用。值得注意的是,ESM-1v嵌入中已包含上下文信息,因此这些注意力权重受到周围残基的间接影响。
进一步分析显示,极性残基的平均注意力权重普遍高于非极性残基。EpHod还能根据不同类型酶选择性地聚焦于不同电荷残基:在酸性酶中,赋予负电残基更高的权重;在碱性酶中,则赋予正电残基更高的权重。此外,残基注意力权重的排序与氨基酸组成(AAC)在酸性与碱性酶中的分布顺序不同,说明模型不仅学习到了氨基酸出现频率,更学习了其功能重要性。研究还发现,EpHod对表面暴露度更高以及距离催化中心更近的残基分配了更高的权重,这一趋势也在典型酶的三维结构中得到了可视化验证。
最后,研究人员将EpHod与其他基于结构或生物物理的方法进行了比较,包括蛋白表面正负电荷残基比例(Arg+Lys−Asp−Glu)、等电点(pI)、以及通过PROPKA3软件计算的最稳定pH值(ΔΔG pHopt)。在区分酸性与碱性酶的能力上,EpHod表现更佳。值得一提的是,虽然PROPKA3用于估算蛋白质在不同pH下的稳定性最优点,但实际催化活性所需的pHopt往往更具生化意义,因为即使蛋白结构稳定,若其催化中心未处于合适的质子化状态,酶活性仍可能缺失。此外,研究结果也进一步证实了pI与催化最适pH之间相关性较弱或不存在的结论。
讨论
本研究提出了一个机器学习模型 EpHod,用于预测酶的最适pH(pHopt)值。通过对多种机器学习方法的系统评估与比较,研究人员发现,基于蛋白语言模型(PLM)嵌入的数值表示方式在蛋白性质预测任务中表现最优,这一发现进一步印证了PLM嵌入在各类蛋白预测任务中的广泛适用性。然而,即使在进行了广泛的超参数优化,不同PLM嵌入之间的性能仍存在显著差异,强调了在模型训练过程中选择适配任务的嵌入模型的重要性。此外,卷积神经网络(CNN)架构的CARP模型所产生的嵌入,与基于transformer的模型相当,支持了CNN在相同数据规模和模型容量下具备竞争力的观点。
研究人员还发现,在中等规模数据集(<10,000条序列)下预测天然蛋白性质时,传统机器学习模型(如SVR与XGBoost)结合平均PLM嵌入的表现可与深度神经网络相媲美,甚至优于使用逐残基嵌入训练的神经网络。尽管引入了在大规模pHenv数据集上的预训练,神经网络的表现仍未显著优于SVR模型。研究人员推测,若采用最新的高效参数微调技术或多任务学习框架,可能会获得更显著的性能提升,相较于本研究中所采用的传统微调方式。
研究人员还强调,在训练过程中应结合模型的实际应用场景进行策略设计。考虑到EpHod主要用于识别具备强酸或强碱耐受性的酶,因此训练时引入了基于样本分布的加权损失函数,并采用相应的加权指标进行评估,从而减轻了模型对中性pH值的偏倚,并增强了其在极端pH区间的预测能力。除了pHopt分布,EpHod还在不同残基长度、分类谱系、序列相似性和酶活性类别的子集中保持了良好表现,在所有分析类别中,RMSE均小于2.0 pH单位。与传统监督模型在子类数据中常见的显著波动不同,EpHod及其他PLM驱动模型展现了更好的稳健性与泛化能力,得益于自监督预训练所提供的结构与语义信息。
在本研究评审期间,已有两个新模型(OphPred与GraphEC)被提出用于预测酶pHopt。OphPred结合语言模型嵌入与传统机器学习方法,但未充分解决pHopt数据分布不平衡问题,导致模型预测偏向中性区域,难以准确识别稀疏的酸性与碱性样本,其加权R²得分低于EpHod。GraphEC基于蛋白质结构预测(使用ESMFold)与ProtTrans嵌入构建图神经网络模型,但由于依赖结构预测,计算开销大,限制了其在高通量应用中的可扩展性。研究人员比较后发现,EpHod在多个评估指标上均优于上述两种方法,且仅使用平均ESM-1v嵌入和SVR模型的组合,也能达到与GraphEC相当的性能,进一步说明经过优化的传统机器学习模型在与PLM嵌入结合后,依然具有很强的竞争力。
展望未来,EpHod有望在酶的发现与设计中发挥多方面作用。首先,EpHod可用于大规模序列数据库中酶同源物的高通量pHopt预测,辅助筛选具备极端pH耐受性的酶;其次,模型中注意力权重较高的残基,或预测pHopt与野生型差异较大的点突变,可作为位点饱和突变的候选,用于优化极端条件下的酶活性;第三,将EpHod与现有蛋白设计技术结合,可实现对合成蛋白的大规模筛选,并借助机器学习引导的进化策略,筛选出在特定pH范围内功能增强的变体;第四,EpHod还可嵌入条件生成模型中,直接生成具备目标pHopt的新型功能蛋白;最后,EpHod最终隐藏层的输出也可作为捕捉pHopt相关特征的嵌入向量,进一步用于下游监督学习任务。
整理 | WJM
参考资料
Gado, J.E., Knotts, M., Shaw, A.Y. et al. Machine learning prediction of enzyme optimum pH. Nat Mach Intell (2025).
.1038/s42256-025-01026-6
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-30,如有侵权请联系 cloudcommunity@tencent 删除模型数据性能机器学习nat