摘要:水合热力学在基于结构的药物设计中具有关键作用,准确预测蛋白质结合口袋中水分子的热力学稳定性对配体优化至关重要。近期,Fukushima 与 Yoshidome提出的 Deep GIST 方法利用深度学习实现了水合自由能空间分布的高效预测,计算速度较传统 GIST 提升约 8700 倍。然而,其在 FK506 结合蛋白(FKBP,PDB: 1D7I)体系中预测所有水合位点的置换自由能(ΔGW,replace)均为负值(最高为 −2.40 kcal/mol),暗示结合口袋内水分子整体处于热力学稳定状态,这一结果与实验观测存在逻辑冲突。为验证该预测的物理合理性,本研究采用 Flare 软件实现的GIST 方法,对同一 体系进行了 20 ns 分子动力学模拟与水合热力学分析。结果表明,FKBP 结合口袋内与配体重叠的水合位点均呈现正的水合自由能(ΔG = 1.19–3.67 kcal/mol),属于典型的“高能水”(unhappy water),其热力学不稳定性为配体置换提供自发驱动力。本研究揭示了数据驱动模型在绝对自由能预测中可能存在的系统性偏差,并强调基于物理原理的 GIST 方法在提供可解释热力学洞察方面的独特价值,为水分子导向的药物设计提供了理论依据与方法学参考。

Gaokeng Xiao. Hydration Free Energy in FKBP: Physics-Based versus Deep Learning Approaches. 2026-02-01.

1. 前言

近年来,水合热力学在药物设计中的重要性日益凸显,特别是蛋白质结合位点中水分子的行为对配体亲和力具有关键影响。Fukushima和Yoshidome1最近发表的Deep GIST研究提出了基于深度学习的蛋白质水合热力学快速预测方法,用于预测蛋白质周围水合热力学量的空间分布,包括水合自由能(\(ΔG_{W}(r)\))、水合能(\(ΔE_{W}(r)\))和水合熵(\(TΔS_{W}(r)\))。

该研究的一个重要算例涉及FK506结合蛋白(FKBP)的结合口袋分析。特别值得注意的是,在PDB 1D7I的配体结合位点中,所有水合位点计算得到的替换自由能(\(ΔG_{W,replace}\))均为负值,最高值为-2.4 kcal/mol。文章指出,较高\(ΔG_{W,replace}\)值的水分子(如-2.40 kcal/mol)与配体位置重叠,表明这些水分子在配体结合时应该被替换,这为配体设计中排除特定水分子以降低熵罚并提高亲和力提供了理论依据。

然而,从基础热力学原理角度分析,结合口袋中所有水合位点的自由能均为负值这一现象确实值得深入探讨。虽然Deep GIST方法在计算效率上表现出显著优势(较传统GIST提速约8700倍),但其预测结果的理论合理性需要进一步验证。特别是,所有\(ΔG_{W,replace}\)值均为负可能反映了该方法在特定蛋白质体系中的局限性,或者揭示了FKBP结合位点水合环境的独特特征。

为了深入理解这一现象并验证Deep GIST方法的可靠性,我们采用Flare2软件实现的GIST3对同一体系(PDB 1D7I)进行了独立计算。结果表明,我们的计算结果呈现出完全相反的趋势:FKBP结合位点中预测的水合位点自由能均为正值,属于典型的”unhappy water”。更值得注意的是,这一精确计算仅需2个多小时即可完成,在保证准确性的同时展现了现代计算工具的高效性。

本文将通过详细的实验数据和方法对比两种方法的结果,我们旨在:1)验证Deep GIST预测的准确性;2)探讨FKBP结合口袋的水合位点与自由能分布的物理意义;3)分析全负值\(ΔG_{W,replace}\)是否符合蛋白质-水相互作用的普遍规律。这项验证性研究不仅有助于评估深度学习在计算生物物理中的应用价值,也为水合热力学在药物设计中的合理应用提供重要参考。

2. 结果与讨论

2.1 FKBP结合口袋的apo-GIST分析

本研究以 FKBP 与配体 DSS 的共晶结构(PDB 1D7I)为起点,首先分析其结合口袋的几何与溶剂化特征(图 1)。配体 DSS 位于一个疏水性较强的结合腔内,周围存在四个晶体学水分子(HOH448、450、451、452)。在后续 apo-GIST 模拟中,配体被移除,蛋白重原子施加位置约束,仅允许水分子与缓冲离子自由运动,以表征配体结合前口袋的水合状态。

PDB 1D7I的结合位点

图1. PDB 1D7I的结合位点

GIST 将水分子性质表达为空间位置的连续函数,水合位点由局部水密度极大值自然界定。图 2 展示了水氧密度 \(≥\) 4 的等值面(单位: 体相水密度),该阈值对应于体相水密度的4倍,通常用于识别潜在的结合水区域。结果表明,配体原子及晶体学水分子基本被高密度等值面包裹或邻近,证实 GIST 水密度可有效预测结合水的空间分布。

PDB 1D7I的apo-GIST的水密度

图2. PDB 1D7I的apo-GIST的水氧密度(Water Density\(\ \ge\ 4\))

GIST的能量分量以密度方式呈现,图3展示了水合自由能密度分布:以\(\Delta G \ge 0.5\ kcal/mol/A^3 \)标记高能水区域(红色,unhappy water);\(\Delta G \le -0.5\ kcal/mol/A^3 \)标记低能水区域(绿色,happy water)。结果显示,配体占据区域及邻近结合水主要被红色高能水覆盖,绿色低能水区域稀少。该分布模式与 Fukushima 等人1 报道的全负值 ΔG 预测存在显著差异,提示两种方法在热力学量绝对标度上可能存在系统性偏差。

PDB 1D7I的apo-GIST水合自由能分布

图3. PDB 1D7I的apo-GIST水合自由能密度分布。灰色表面:FKBP;红色:\(\Delta G \ge 0.5\ kcal/mol/A^3 \);绿色:\(\Delta G \le -0.5\ kcal/mol/A^3 \)

2.2 水合位点与水合自由能分析

为便于直观解释,本研究采用贪心峰值拾取算法从水密度网格中提取离散水合位点(图 4)。该方法以局部密度极大值为中心,排除半径 2.5 Å 范围内体素后迭代进行,直至无密度超过体相水两倍的区域。对每个水合位点,以其为中心、半径 1.4 Å 范围内体素的 GIST 热力学量进行体积积分,获得以 kcal/mol 为单位的水合自由能(ΔG)。

结果表明,四个晶体学水分子(HOH448、450、451、452)均被准确预测,分别对应水合位点 #25、#30、#21 与 #58。此外,结合口袋内存在多个与配体重叠的水合位点(#11、#31、#43、#47、#48),其 ΔG 均为正值,范围介于 1.19 至 3.67 kcal/mol。该结果表明,这些位置的水分子相对于体相水处于热力学不稳定状态,其置换过程在热力学上自发有利,为配体结合提供驱动力。此“高能水易被置换”的图景与药物化学中水分子导向设计的基本原理高度一致。

PDB 1D7I的apo-GIST水合位点及其置换自由能

图4. PDB 1D7I的apo-GIST水合位点及其水合自由能(\(\Delta G\))。灰色表面:FKBP;红色球形:水合位点。

2.3 方法学比较:物理可解释性与预测可靠性

我们的实证研究表明,基于经典统计力学原理的 Flare GIST 方法,其预测结果在物理解释性上显著优于基于数据驱动的 Deep GIST 模型。这一优势的核心在于,Flare GIST 的结果与既有的热力学理论和药物设计实践经验完美契合,提供了一个直观且可靠的物理解释框架。

首先,Flare GIST 揭示了更具说服力的热力学图景。 如计算结果所示,在 FKBP 结合口袋中与配体 DSS 重合的水合位点(如 #11, #31, #43 等),其水合自由能均为正值(1.19 – 3.67 kcal/mol)。这一定性结论具有明确的物理意义:这些位置的水分子相对于体相水是不稳定的(“unhappy water”),因此将其置换出来是一个热力学有利的过程。这直接解释了配体能够自发地结合并取代这些水分子的根本驱动力——用具有更强相互作用的配体官能团来替代不稳定的水分子,从而降低系统自由能,提高结合亲和力。这种“高能水易被置换”的逻辑是药物化学家设计配体时的核心理论基础。

相比之下,Deep GIST 预测所有水合位点 ΔG 均为负值(即“happy water”)的结论,则难以自圆其说。 如果结合口袋中的水分子都处于稳定状态(负ΔG),则替换它们需要付出额外的能量代价,这将不利于配体结合。这一结果与观测到的配体具有高亲和力的事实相悖,无法为“为何配体要替换这些水分子”提供一个合理的热力学解释,从而削弱了其在实际药物设计中的指导价值。

尽管Deep GIST 的研究文章指出,其预测的 ΔGW,replace的相对值(即不同水合位点之间的数值差异)包含有价值的信息,并且与经典 GIST 结果存在相关性(相关系数 ~0.78)。这种相对趋势确实能在一定程度上用于排序不同水合位点的“可置换性”——即,在一个蛋白质结合口袋内,一个 ΔG 值为 -2.4 kcal/mol 的水位点可能比一个 -5.9 kcal/mol 的水位点相对更容易被配体替换。Deep GIST 的全部负值结果,将解释始终禁锢在“哪个水分子相对更不稳定”的框架内。它无法回答一个更根本的药物设计问题:替换这个口袋里的任何水分子,在热力学上到底是不是一个有利的过程?​ 因为按照其预测,所有水分子在绝对意义上都是稳定的(\(ΔG < 0\)),替换它们从整体上看需要付出代价。

而 Flare GIST 给出 ΔG​ 直接越过了相对比较,给出了绝对的物理答案:替换这些水分子(\(ΔG > 0\))本身就是一个热力学自发(有利)​ 的过程。如图4所示,位点 #11 (3.19 kcal/mol) 和 #31 (3.67 kcal/mol) 等不再仅仅是“相对容易”被替换,而是它们本身的存在就对结合位点的稳定性构成了“惩罚”,将其置换能直接带来结合自由能的增益。这为配体设计提供了清晰、定量的热力学靶点。

其次,Flare GIST 的结果与实验观测的一致性提供了双重验证。 该方法不仅准确预测了晶体结构中观测到的关键结合水(如 HOH448 对应 #25 位点),还进一步指出了那些虽未被水分子占据、但热力学上不利于水分子存在的“空缺”位点(即高能水位点)。这些位点恰好与配体原子重叠,为配体的合理结合模式提供了直接证据。这种预测与实验的高度一致性,极大地增强了 Flare GIST 结果的可信度和解释力。

综上所述,Flare GIST 通过其符合物理直觉的“高能水”预测,成功地将蛋白质微观水合环境与配体结合的宏观亲和力联系起来,构建了一个清晰、因果明确的解释链条。 而 Deep GIST 的“全负值”结果尽管计算飞速,但在关键的热力学解释层面存在明显短板。因此,在需要对水分子行为进行机理阐释和决策支持的药物设计项目中,Flare GIST 提供的基于物理原理的、可解释的深度洞察,具有不可替代的价值。

3. 方法

3.1 蛋白结构准备

将FKBP共晶结构PDB 1D7I下载到Flare V10里,对 A 链进行结构准备(Protein Prep 模块,Normal 模式),包括添加氢原子、优化残基质子化状态以及修复缺失侧链。B 链被移除,其余共晶水分子与其它成分均被保留,以维持结合口袋的原始化学环境。经过仔细确认之后,将配体从共晶结构里提取出来,以进行下一步的apo-GIST分析。

3.2 apo-GIST 计算

为表征配体结合前结合口袋的本征水合特性,本研究采用无配体 GIST(apo-GIST)方案。模拟体系包含蛋白 A 链及其晶体学水分子,配体虽被移除,但以其空间范围定义 GIST 网格区域,确保分析聚焦于真实结合口袋。

具体 GIST 计算参数如下:

  • Calculation method: Normal
  • Ligand: None
  • Grid spacing: 0.5 Å
  • Grid definition: Ligand
  • Chains: A Chain, A Water
  • GCNCMC: During equilibration only (buffer 4.0 Å)
  • Simulation length: 20 ns
  • Solvent model: Explicit TIP4Pew water

GIST 结果以 Flare 项目文件形式存档(附件:Flare-apo-GIST-1D7I.flr)。

3.3 水合位点的识别与水合自由能计算

水合位点(hydration sites)基于 GIST 计算得到的水氧密度网格进行识别。具体而言,水合位点采用贪心峰值拾取(greedy peak picking)方法进行识别:首先选取具有最高水氧密度的体素作为第一个水合位点中心,并排除其 2.5 Å 半径范围内的体素;随后对剩余体素重复该过程,直至不存在密度高于体相水氧密度 2 倍的体素。

对于每一个水合位点,收集其 1.4 Å 半径内的体素,并对其中的 GIST 热力学量进行体积积分:

$$
ΔG = \sum_{i \in {site}}\Delta g_{i}⋅V_{voxel}\cdots(1)
$$

其中\(Δg_i\)为体素 i 的自由能密度(kcal/mol/ų),\(V_{voxel}\)=0.125 ų。计算通过pyflare脚本实现4。结果以 PDB 格式保存(附件:apo_hs.pdb),B-factor存储\(\Delta G\)。水密度与自由能网格同步导出为 DX 格式用于可视化。

4. 结论

本研究通过经典 GIST 方法对 FKBP 蛋白(PDB: 1D7I)结合口袋进行了高精度水合热力学分析,发现与配体重叠的水合位点均呈现正置换自由能(ΔG = 1.19–3.67 kcal/mol),表明这些位置的水分子处于热力学不稳定状态,其置换过程可为配体结合提供自发驱动力。该结果与 Deep GIST 预测的全负值 ΔGW,replace 形成鲜明对比,揭示了数据驱动模型在绝对自由能标度上可能存在系统性偏差。

两种方法的差异可能源于以下因素:(1)Deep GIST 作为监督学习模型,其训练数据可能主要来源于水分子稳定占据的位点,导致对高能水区域的预测存在负向偏移;(2)深度学习模型对训练集分布外样本(如强疏水口袋)的泛化能力有限;(3)绝对自由能的精确预测对力场参数与采样充分性高度敏感,而数据驱动方法难以完全捕捉此类物理细节。

本研究强调,在水分子导向的药物设计中,热力学预测的物理可解释性与绝对标度准确性至关重要。基于统计力学的 GIST 方法虽计算成本高于深度学习模型,但其结果与热力学基本原理及实验观测高度一致,能够为“是否应置换特定水分子”提供明确判据,对关键位点的理性设计具有不可替代的指导价值。未来工作可探索将物理模型与机器学习相结合的混合策略:利用深度学习进行初筛以提升效率,再通过基于物理的方法对关键位点进行精细验证,从而在计算效率与预测可靠性之间取得平衡。此外,构建涵盖高能水区域的高质量训练集,亦有助于提升数据驱动模型在绝对自由能预测中的准确性与泛化能力。

想在自己的项目中使用GIST,联系我们,获取软件试用

想要尝试Flare信息丰富、用户友好界面,发现它如何帮助您自信地推动潜在先导化合物优化?请现在就联系我们安排试用,快速访问Flare的广泛功能。我们的专业团队随时准备通过安装和设置为您提供支持,而我们全面的教程库——涵盖从常见工作流程到高级方法和功能的所有内容将帮助您开始使用。我们在这里帮助您更快地实现目标,让您设计出感兴趣的分子。

电邮:info@molcalx.com

电话:020 – 38261356

5. 文献

  1. Fukushima, Y., & Yoshidome, T. (2026). Deep GIST: Deep Learning Models for Predicting the Distribution of Hydration Thermodynamics around Proteins. Journal of Chemical Information and Modeling, 66(3), 1429–1444. https://doi.org/10.1021/acs.jcim.5c02389
  2. Flare. https://cresset-group.com/software/flare
  3. Flare GIST. https://cresset-group.com/software/flare-3drism
  4. 肖高铿. 基于GIST的水合位点分析及其在基于结构设计中的应用. 墨灵格的博客. http://blog.molcalx.com.cn/2024/10/04/gist-based-hydration-site-analysis.html