通知公告
首页 > 通知公告 > 正文

季呈明博士答辩公告

来源: 日期:2025-09-04 点击数:

答辩博士:季呈明

指导老师:徐焕良

论文题目:基于多任务深度学习的酶催化动力学参数预测与应用

答辩委员会:

主席:

孙正兴教授/博导 南京大学

委员:

倪军教授/博导 上海工程技术大学

崔中利教授/博导 南京农业大学

沈明霞教授/博导 南京农业大学

林相泽教授/博导 南京农业大学

秘书:翟肇裕 南京农业大学

答辩时间:2025年9月6日14点

答辩地点:卫岗校区大学生活动中心210

论文简介:

酶催化动力学参数的精准预测是酶理性设计与定向进化的核心挑战。传统实验方法通量低、成本高,难以满足大规模筛选需求,而现有计算模型存在数据质量有限、特征表达能力不足、多任务关联挖掘不充分等问题。针对上述挑战,本文围绕酶催化效率(kcat/Km)的预测开展研究,构建了包含kcat、Km以及kcat/Km的多维度酶动力学数据集,集成蛋白质与分子语言模型进行酶-底物特征编码,提出动态多任务梯度提升框架(DyMTGBM),通过显式建模多参数间关联与梯度冲突缓解机制,显著提升预测精度。进一步提出融合双重注意力的SEMixNet结构,增强氨基酸维度关键突变区域的特征敏感性,提升突变后酶催化效率的变化趋势分类能力。实验表明,所构建模型可准确预测高活性突变体,为酶工程优化与农业酶资源开发提供可靠的计算理论基础与关键技术支撑。

研究的主要内容和成果包括:

(1)构建了一个涵盖kcat、Km和kcat/Km三项催化参数的数据集,每条记录均包含有效的反应pH、温度、宿主菌等环境因子。在数据清洗过程中删除了32626条突变位点与匹配序列存在冲突的野生型与突变型酶,确保了突变位点计算的准确性,进一步提升数据集质量。最终数据集包含44792条Km、31373条kcat和20250条kcat/Km的有效记录。此外,基于预训练模型计算了酶-底物的特征,包含用于酶特征计算的蛋白质语言模型(UniRep、ESM2、ESMC、ProtT5、ProstT5),以及底物特征计算的分子语言模型(MoleBERT、SMILES Transformer)。

(2)尽管kcat和Km已被广泛研究,但对催化效率关键指标kcat/Km的研究仍然相对匮乏。基于此,提出了CatEffBoost框架,评估了多种酶与底物特征组合的有效性,并深入探讨了温度、pH、底物特性(包括分子量与脂水分配系数)以及宿主菌等环境因素对催化效率的调控机制。此外,比较了多种机器学习算法(包括UniKP、CatBoost、XGBoost、LightGBM、RandomForest和SVR)与深度学习模型(MLP、CNN1D和UniAMP)在单任务场景下的预测效能。进一步地,提出了幂指数加权重采样方法(Power-Weighted Class-Balanced Weights,PWCBW)以解决kcat/Km原始数据分布不均衡,极值区域建模困难的问题。最后,围绕PZN来源的β-葡萄糖苷酶进行单点突变体实验验证,验证了预测模型在酶挖掘中的可行性。实验结果表明:1)使用ProtT5和MoleBERT分别描述酶和底物特征时效果最佳(R²=0.569)。引入反应温度与pH有助于提升预测性能(R²=0.576),而宿主菌信息则对模型表现产生抑制作用。3)在各类算法中,XGBoost和LightGBM等基于树的集成学习算法显著优于深度学习算法(PCC>0.759)。4)PWCBW方法有效缓解了样本分布不均所导致的预测偏差(PCC=0.7767),优于传统的CSW和CBW方法。5)成功预测了PZN-β葡萄糖苷酶的高效突变体N471V,实验验证其催化效率为野生型的3.7倍,进一步体现了预测模型在酶挖掘与改造中的潜力。

(3)现有研究虽然对kcat和Km开展了多任务学习建模,但均未能深入挖掘不同预测任务之间的内在关联与协同机制。为此,基于集成学习算法LightGBM提出了一种动态多任务梯度提升机模型(Dynamic Multi-Task Gradient Boosting Model,DyMTGBM),旨在通过显式建模任务间的相互作用关系,提升kcat/Km的预测精度。DyMTGBM联合学习三项催化参数的共享潜在特征,引入梯度冲突投影机制(Projected ConflictingGradient,PCGrad)与负梯度引导机制,缓解了梯度冲突与显式数学约束所带来的建模困难。实验结果表明:1)DyMTGBM解决了Km与kcat/Km任务的梯度冲突问题。2)在随机五折交叉验证中,DyMTGBM在log(kcat/Km)预测任务中取得显著性能提升(测试集R²=0.62,PCC=0.79),优于UniKP(R²=0.58,PCC=0.76)和MPEK(R²=0.28,PCC=0.53)。同时,模型在log kcat与log Km两个任务上亦表现出优越性能:log kcat的R²为0.66(高于UniKP的0.65和MPEK的0.46),log Km的R²为0.70(高于UniKP的0.68和MPEK的0.51),验证了多任务建模在提升整体预测精度方面的有效性。3)在三个面向定向进化的独立突变数据集(TAL同源序列、TAL定向进化、trCsMSX定向进化)上,DyMTGBM成功识别出大多数突变体的催化效率变化趋势,验证了其在酶定向进化任务中的实用性与鲁棒性。

(4)现有研究多采用对ProtT5特征图直接进行均值池化的方式构建酶的整体表示,但该方法往往稀释关键残基的突变信息,导致模型对局部功能变异不敏感。基于此,提出了SEMixNet模型,实现对酶催化效率(kcat/Km)变化趋势的准确预测。SEMixNet引入了通道注意力与列方向自注意力机制,增强突变位点及邻域在kcat/Km调控中的表达能力。通过在kcat/Km回归任务中训练SEMixNet并提取其隐藏层特征,进一步作为XGBoost模型输入,实现突变趋势的精准预测。此外,为提升定向进化实验的效率与可控性,开发了宿主菌浓度在线监测系统,实现OD600的无扰动连续采集,确保诱导表达阶段酶维持在高活性状态(0.6–0.8),有效控制批次间误差。实验结果表明:1)将均值池化与SEMixNet深层特征融合构建的Avg-SEMix-XGB模型在突变分类任务中表现最佳(F1=0.758),显著优于Avg-XGB(F1=0.724)和SEMix-XGB(F1=0.596),体现了SEMixNet模型在突变信息提取与表达方面的优势。2)在线测定系统在多种菌种中测量误差低于5%,展现出良好的通用性与精度,为模型预测与实验验证联动提供支撑。

主要创新点如下:

(1)构建了一个包含46936条样本的大规模酶动力学参数数据集,涵盖Km与kcat与kcat/Km标签,用于支持预测模型的稳定训练与评估。

(2)基于催化效率参数kcat/Km提出了CatEffBoost框架,通过引入PWCBW幂函数重采样策略改进了XGBoost模型,在测试集上PCC可达0.7767。进一步以PZN-β-葡萄糖苷酶为模型酶开展定向进化实验,首次发现并筛选出催化效率较野生型提升3.7倍的高效突变体N471V。

(3)深入分析了kcat、Km和kcat/Km多任务优化和协调问题,开发了基于梯度提升的多任务回归模型DyMTGBM。首次发现Km与kcat任务之间的冲突问题,并首次提出通过-logKm负梯度引导策略缓解任务干扰,该方法在单任务与多任务预测中均表现出优异的性能。

(4)提出了SEMixNet模型,首次提出并实现对突变引发的催化效率kcat/Km变化趋势的预测。模型融合通道注意力与氨基酸维度的自注意力机制,提取关键突变特征,并结合隐藏层深层表示与平均池化构建分类器输入,提升了趋势判别能力。同时设计了基于光密度法的宿主菌浓度在线监测系统,实现OD600的实时采集与传输,辅助诱导时点判断与表达过程控制,提升定向进化实验的效率与可重复性。

版权所有:南京农业大学工学院

地址:滨江校区:江苏省南京市江北新区滨江大道666号

   浦口校区:江苏省南京市浦口区点将台路40号

邮编:210031      邮箱:coe@njau.edu.cn     

苏ICP备11055736号-3