数据驱动的微扰网络生成用于相对结合自由能计算

摘要：在本文中，Mark为大家解释了FEP计算相对结合自由能的原理，总结了爱丁堡大学Scheen和Michel文章关于AI生成微扰网络论文的精妙之处。总的来说，将AI用于FEP计算微扰网络的构建是一个令人兴奋的进步，并证明了将AI模型和基于模拟的方法融合在一起所获得的好处，以充分利用两者的优势。

作者：Mark Mackey/2022-10-25
编译：肖高铿

你们中的许多人都知道，我们与爱丁堡大学的Michel课题组进行了长期且富有成果的合作，开发并改进了自由能计算方法。在该课题组中我们赞助的博士生Jenke Scheen发表了一篇关于联合使用深度学习与自由能计算的论文“Data-driven Generation of Perturbation Networks for Relative Binding Free Energy Calculations”，Digital Discovery, 2022 （DOI 10.1039/D2DD00083K）。

为了理解这一进展，需要快速入门相对结合自由能（relative binding free energy，RBFE ）计算。诸如Cresset的Flare™ FEP之类的RBFE方法是通过炼金术转换来工作的，其中一个配体在一系列动力学模拟过程中巧妙地突变为另一个配体。分析结果可以计算出两种配体结合自由能的差异 (ΔΔG)。尽管该技术仅可应用于单个配体对，但实际上更常见的应用场合是同时处理一组相关配体。那么问题来了：我应该计算数据集中哪对分子的ΔΔG？你可以简单点，每一对都做，但模拟非常耗时，所以很快就会变得太昂贵。使问题复杂化的是，计算的准确性取决于变换的大小：“大”变换可能比“小”变换嘈杂得多。

因此，本领域的技术是尝试创建一个图，以便使所有配体连接在一起，计算时间最小化，并且总体误差也最小化。这很难做好！ Xu Huafeng的论文（DOI 10.1021/acs.jcim.9b00528）为该问题奠定了坚实的数学基础，提出了一种创建最优网络的算法。不幸的是，该算法需要对每个链接中可能发生的误差估计作为输入，而这通常是不可用的。另一种方法，LOMAP （DOI 10.1007/s10822-013-9678-y），先使用启发式方法来确定每个链接的“简单”程度（假设与两个配体之间变化的原子数量大致相关）来规划网络，然后构建一个优先使用更简单链接的网络。

Scheen和Michel的工作采用了LOMAP方法并对其进行了扩展。与其使用一组手动生成的启发式方法来计算转换可能有多“容易”，不如训练一个机器学习算法来为我们计算呢？这里的困难在于深度学习方法需要大量的训练数据，由于需要时间，这对于 RBFE 计算是不可行的。本文的关键见解是，一般来说，转化的难度取决于在于被转化的配体，而不是其环境的细节，因此您可以使用计算的溶剂化自由能而不是蛋白质结合自由能来训练网络。这样计算速度要快得多，因此 Scheen和Michel能够将一个包含近4,000个转换的训练集放在一起，每个转换一式五次执行以获得误差统计信息。

基于这些数据，他们能够创建一个全新的AI模型，给定一对分子，该模型可以估算在RBFE 环境中将一个分子转换为另一个分子的难度。验证结果表明，该模型显著地优于使用随机网络的模型，并且与使用 LOMAP（由专家手动调整）产生的分值相当。关于模型和验证的完整详细信息，请阅读原始论文。这是一个令人兴奋的进步，并证明了将AI模型和基于模拟的方法融合在一起所获得的好处，以充分利用两者的优势。