基于机器学习的酶改造方法研究

酶不仅是生物体赖以生存的核心物质,还在食品加工、工业生产、临床治疗、疾病诊断等领域发挥着不可替代的作用。大量研究发现,天然酶在稳定性、耐受性、选择性等方面往往无法满足实际应用的需求,需要进一步探索高效的酶改造技术来定制具有期望功能的酶。虽然定向进化、理性设计与半理性设计在酶改造中都取得了显著成果,但它们都需要大量的计算或实验筛选工作。近年来,以获悉更多机器学习为代表的人工智能技术取得了突破性的进展,为解决酶改造中的关键问题提供了强有力的手段。在半理性设计的基础上,本文围Tofacitinib绕基于数据驱动优化的酶分子改造方法展开研究,以降低酶改造的时间成本与经济投入。本文将酶改造建模为黑箱函数的组合优化问题,从而设计提取蛋白质特征的编码方法、开发指导酶改造的贝systems biology叶斯优化方法、并探索提高代理模型泛化性能的主动学习方法。最终,仿真模拟的酶改造实验与真实的羰基还原酶活性改造实验证明了所提出方法的有效性。本文的主要研究内容及创新成果包括:1.为实现基于机器学习的酶分子定向改造,本文首次将其建模为黑箱函数的组合优化问题。需要指出的是,酶分子改造的优化问题涉及组合优化、高维优化与批量优化。为此,本文引入机器学习技术中的贝叶斯优化方法加以求解,并从贝叶斯优化的代理模型构建与采集函数开发方面展开研究。2.针对现有蛋白编码方法表征能力差的问题,本文给出了一个新的编码方法范式,并依据该范式设计了一种有效的蛋白质编码方法,即低维互信息编码方法。基于公开酶分子改造数据进行的模型拟合精度与模拟改造实验表明,所提出的蛋白质编码方法明显优于已有编码方法,且编码结果对基于机器学习的酶分子定向改造具有促进作用。3.针对现有贝叶斯优化方法存在的问题,本章提出了带有终止条件的全新贝叶斯优化框架,并依据此框架开发了适用于组合优化问题的基于最大方差改变量的批量贝叶斯优化算法。根据代理模型从历史数据中收集到的先验信息,所提出的批量贝叶斯优化算法可对当前是否查询到优化问题的全局最优解进行判断,从而避免了不必要的评估实验。实验结果表明,与现有批量贝叶斯优化算法相比,所提出的批量贝叶斯优化算法在优化性能、鲁棒性、收敛性等方面更具优势。4.为提高代理模型泛化性能,本文以权重信息增益作为模型改变量的衡量标准,提出了一种基于池的高斯过程回归批量主动学习方法。该方法不仅能直接依据权重不确定性的减少程度衡量模型的变化情况,还考虑了同批次样本间的相似程度,保证了高斯过程批量主动学习的有效性。实验结果表明,本文提出的基于池的高斯过程回归批量主动学习方法能为高斯过程回归代理模型的构建提供“小而精”的训练集。本论文从数据驱动优化的角度,系统性地研究了酶分子改造中的关键问题,对蛋白质编码方法、批量贝叶斯优化算法等基础方法进行了创新性的探索。研究成果不仅能有效降低酶分子改造的成本,还为蛋白质的改造提供了新的研究思路,从而促进了机器学习方法在蛋白质工程领域的长足发展。