摘要:在缺乏靶标蛋白共晶结构信息的早期药物发现阶段,准确识别配体的生物活性构象对虚拟筛选与先导化合物优化至关重要。本研究以四个已知ROS1激酶抑制剂为对象,在仅提供其二维化学结构的前提下,利用Cresset公司Flare™平台中的FieldTemplater™模块,基于分子静电场、疏水场与形状场的连续性特征,构建其公共结合模式。结果表明,FieldTemplater成功识别出两个高置信度模板(模板3与模板4),其预测构象不仅在激酶铰链区展现出与ATP腺嘌呤片段高度一致的氢键及静电相互作用模式,且与实验共晶结构中的配体构象高度吻合(RMSD均低于1.2 Å)。构象张力能分析进一步证实,所预测构象在热力学上稳定。本研究验证了FieldTemplater在无结构信息条件下可靠推断生物活性构象的能力,为基于配体的三维药效团建模与虚拟筛选提供了有效策略。

1. 前言

在前期研究1中,为确定化合物31(图1)的生物活性构象,我们利用Flare™平台中的场点(Field Points)技术,将其分别叠合至四个已知ROS1抑制剂与其靶标形成的共晶结构中的配体(图2)上。结果表明,化合物31的两种构象——CONF_34与CONF_41——不仅在三维形状与药效团特征上与上述共晶配体高度相似,且能够有效模拟这些配体与ROS1激酶铰链区及DFG基序关键残基之间的相互作用模式,因而被推测为其潜在的生物活性构象。

ROS1抑制剂化合物31

图1. 化合物31的化学结构式

此外,研究还识别出一种高张力能的“非活性”构象(CONF_17),其构象张力能高达8.5 kcal/mol,表明该构象在热力学上不稳定;同时,该构象缺乏与ROS1铰链区形成氢键相互作用所需的供体基团。随后,我们分别以活性构象(CONF_34/41)和非活性构象(CONF_17)作为查询分子,对ChEMBL35数据库开展基于形状的虚拟筛选。结果显示,以活性构象为模板的筛选不仅高效召回已知ROS1抑制剂,还能在最高排名中识别出潜在的反靶标警示信号2;相比之下,尽管非活性构象亦可召回部分已知抑制剂,但因其缺乏合理的生物相互作用特征,在后处理阶段被合理排除。上述结果进一步支持了所推测生物活性构象的合理性,并凸显了在虚拟筛选中采用正确生物活性构象作为查询分子的重要性。

4个已知的ROS1抑制剂及其与ROS1共晶结构的PDB代码

图2. 四个已知ROS1抑制剂及其与ROS1共晶结构的PDB代码

上述生物活性构象的推断依赖于四个ROS1抑制剂与靶蛋白的共晶结构信息。然而,在早期药物发现阶段,此类结构数据往往十分有限。在此情形下,基于配体的计算方法可作为基于结构方法的有效替代。Cresset公司开发的Flare™平台中的FieldTemplater™模块即为代表性工具之一3。FieldTemplater通过比较分子的静电场、疏水场及形状场,识别不同配体间潜在的公共结合模式。即使在缺乏靶标蛋白结构信息的前提下,该方法亦能从若干结构多样但作用于同一靶点的配体中,推导出其可能的生物活性构象及最优叠合方式。与传统药效团建模方法(通常依赖氢键供体/受体、疏水中心等离散特征)不同,FieldTemplater采用连续的分子场(包括静电、形状与疏水场)构建三维模板(Template)。此类模板可作为参考框架,用于指导先导化合物优化,或对虚拟化合物库中的分子进行系统性三维构象比对与筛选4

本文旨在模拟早期药物发现场景——即仅基于图2中四个ROS1抑制剂的二维结构、而无共晶结构信息可用的情况下——利用FieldTemplater构建其公共结合模式,并将所得构象与实际共晶结构中的配体构象进行系统比对,从而对预测的生物活性构象进行评估与优化,并进一步验证FieldTemplater在无结构信息条件下识别活性构象的能力与可靠性。

2. 结果与讨论

2.1 构象搜索

本研究中,化合物的构象分析始于其SMILES二维结构表示。首先,采用Flare软件中的Ligand | Ligand Pred模块生成初始三维结构并进行初步几何优化。随后,利用3D Pose | Conf Hunt & Align模块构建构象系综。所有构象均在GFN2-xTB理论水平下进行几何优化,并执行g-xTB单点能计算。构象去重后,保留能量窗口为3 kcal/mol内的构象,具体方法详见3.1节“构象搜索”。与传统虚拟筛选流程相比,本研究在力场参数设置中特别启用了“Coulombic and attractive vdW”选项,以更准确地描述分子内氢键以及S···N/O超共轭相互作用的潜在贡献1

值得注意的是,PDB 4UXL的共晶配体具有大环结构特征,因此采用自定义的Flare扩展应用Flare | Extensions | Macrocycle Conf Search进行处理:首先使用RDKit的ETKDGv3算法生成初始大环构象,随后采用MMFF94s力场进行几何优化,并以重原子RMSD = 0.5 Å作为构象重复性判据,最终保留能量窗口为10 kcal/mol内的构象系综。具体过程详见3.2节“大环分子的构象搜索”。

表1. 构象搜索统计
Compound 初始构象数
XED FF
ew = 6 kcal/mol
最终构象数
g-xTB//GFN2-xTB
ew = 3 kcal/mol
3zbf_ligand 489 21
4uxl_ligand 244a 2
7z5x_ligand 529 66
7z5w_ligand 314 18

ew: energy window;a:4UXL配体采用MMFF94s力场,ew = 10 kcal/mol。

构象搜索的最终统计结果汇总于表1,所获得的构象系综将用于后续的活性构象预测研究。

2.2 用FieldTemplater生成模板:公共结合模式的预测

FieldTemplater的药效团识别基于以下假设:当多个配体以相似的结合模式作用于同一蛋白结合位点时,其分子场(包括静电、形状与疏水场)应呈现高度一致性。因此,FieldTemplater通过遍历输入配体的构象空间,识别其公共场模式。该公共场模式可解释结构多样化合物共享的结合机制。在分子叠合的初始阶段,系统基于场点评估分子间的共性,随后通过全场相似性计算进行优化。每个生成的药效团模型为每个输入分子指定一个活性构象,该模型即构成一个“模板”(Template)。在本研究中,“药效团模型”与“模板”为同义术语;需特别指出的是,FieldTemplater中的药效团元素为连续的场点(Field Points,图3),而非传统药效团中离散的氢键供体/受体、电荷中心或疏水区域等特征。

FieldTemplater: Field Point

图3. 场点示意图

在Flare的FieldTemplater模块中,导入前述生成的四个化合物构象系综,在标准模式下执行计算,主要参数设置如下:

  • 最大构象数:100;
  • Sim打分中形状相似性权重:50%;
  • 每对化合物间最大比较次数:100;
  • 每对化合物间最大Δ打分阈值:0.10。

共生成217个模板,按Sim值排序后,前四个最优模板在结果表格中被高亮显示,并在3D视窗中可视化呈现,如图4所示。

4个ROS1抑制剂的FieldTemplater在默认参数下计算的结果示意图

图4. 四个ROS1抑制剂经FieldTemplater计算所得的前四个模板(默认参数)

2.3 模板评估:FieldTemplater重现了ROS1抑制剂的生物活性构象

首先,根据Sim值对模板进行降序排列,并优先筛选能够同时涵盖全部四个分子的模板。排名前120的模板均满足此条件。鉴于所有四个ROS1激酶抑制剂均结合于激酶的正构位点,我们假设其结合模式可模拟激酶底物ATP的腺嘌呤部分,与铰链区gatekeeper残基形成经典氢键及C–H···O=C弱氢键相互作用6(图5):多数抑制剂通过其骨架上的氢键供体与受体,分别与gatekeeper+3(gk+3)和gatekeeper+1(gk+1)位置的羰基氧及酰胺氮形成氢键。此外,C–H···O=C相互作用可通过Flare的场点分析进一步识别7

ATP的腺嘌呤部分与激酶的铰链寡肽之间的氢键相互作用

图5. 以AMPPNP与RSK2 N-端结构域的复合物晶体结构(PDB: 3G51,分辨率1.8 Å)为例,展示ATP腺嘌呤部分与激酶铰链区gatekeeper残基之间的氢键相互作用6

基于上述铰链区相互作用模式的先验知识,可快速识别出打分靠前的模板3与模板4为最具生物学意义的候选。如图6(上)所示,模板3与4中高亮的红色(氢键供体,HBD)–绿色(氢键受体,HBA)–红色(HBD)场点排列,与图5中ATP腺嘌呤的N6H2(HBD)–N1(HBA)–C2H(HBD)模式高度对应,且四个分子均满足该排列。

模板3与4

图6. 模板3(左)与模板4(右)的两个视角:上图为铰链区场点匹配,下图为DFG区芳香片段叠合

此外,如图6(下)所示,模板3与4还显示四个抑制剂指向DFG基序的芳香片段高度叠合,尤其是吡嗪环上的氮原子与苯环上的氟原子在空间上重合(紫色圆圈高亮区域),表明这些结构多样的分子在DFG方向上具有高度一致的静电特征。

尽管模板1与2的总体Sim值最高,但其中至少有一个分子未能满足铰链区氢键模式或DFG区静电一致性要求。因此,后续分析仅聚焦于模板3与4。

模板3中四对分子间的平均静电场相似性为0.532,模板4为0.531;在全部217个模板中,最高平均静电场相似性为0.557。在形状相似性方面,模板3与4的平均值分别为0.775与0.751,其中模板3的0.775为所有模板中的最高值。

鉴于模板3与4差异较小,后续以模板3中四个分子的预测构象为参考,分别与各自ROS1共晶结构中的配体进行刚性叠合(使用Flare的3D Pose | Superpose功能),计算二者之间的重原子RMSD,以评估预测构象与实验构象的一致性。通常认为RMSD \(<\) 2.0 Å可视为成功重现实验结合模式。如表2所示,所有四个预测构象均高精度重现了其对应的生物活性构象(RMSD范围:0.208–1.160 Å),且构象张力能较低(\(≤\)2.97 kcal/mol),表明其在热力学上可行。

表2. 模板3预测构象与共晶结构中生物活性构象的RMSD及张力能
Compound RMSD (Å) Strain Energy (kcal/mol)
at g-xTB//GFN2-xTB level
3zbf_ligand 0.566 2.965
4uxl_ligand 0.208 0.0
7z5x_ligand 1.160 2.758
7z5w_ligand 0.483 0.0


3. 方法

3.1 构象搜索

分子的初始三维构象由其SMILES表示出发,首先利用Flare软件中的Ligand | Ligand Pred模块生成初始3D结构,并进行初步几何优化。随后,采用3D Pose | Conf Hunt & Align模块生成构象系综,具体参数设置如下:

  • Conformation hunt: Very Accurate and Slow
  • Maximum number of conformations: 1000
  • No. of high-T dynamics runs for flexible ring: 20
  • Energy window: 6 kcal/mol
  • Turn off Coulombic and attractive vdW forces: No
  • Remove boats and twist-boats: No

所得构象系综进一步在Flare平台下通过3D Pose | QM | Minimize Conformation模块,在GFN2-xTB理论水平(气相,无溶剂模型)下进行几何优化。

经GFN2-xTB优化后的构象,采用g-xTB8方法进行单点能计算。g-xTB 是 Grimme 课题组最近推出的 GFN2-xTB 的替代方法8,其中”g”代表”通用”。该方法展现出显著优于GFN2-xTB的计算结果前景。基于g-xTB单点能结果,对构象进行聚类分析:若任意两个构象之间的相对能量差小于0.05 kcal/mol,且重原子RMSD小于0.125 Å,则视为重复构象,仅保留其中能量较低者。

3.2 大环分子的构象搜索

大环分子的构象搜索采用自定义的Flare扩展应用5Flare | Extensions | Macrocycle Conf Search),参数设置如图7所示。

大环分子构象搜索参数

图7. 大环分子构象搜索参数

该拓展应用从分子的2D结构(SMILES表示)出发,使用RDKit的ETKDGv3算法生成初始大环构象,随后采用MMFF94s力场进行几何优化,并以重原子RMSD = 0.5 Å作为构象重复性判据,最终保留能量窗口为10 kcal/mol内的构象系综。生成的构象系综进一步通过3D Pose | QM | Minimize Conformation模块,在GFN2-xTB理论水平(气相,无溶剂模型)下进行几何优化,并采用g-xTB方法进行单点能计算。构象去重标准同3.1节。

4. 结论

本研究在无靶标蛋白结构信息的条件下,仅基于四个ROS1抑制剂的二维化学结构,成功利用FieldTemplater构建了其公共结合模式。所识别的模板3与模板4不仅在激酶铰链区准确再现了ATP腺嘌呤片段的经典氢键网络,还在DFG区域展现出一致的静电特征。更重要的是,预测构象与实验共晶结构中的配体构象高度一致(RMSD \(≤\) 1.16 Å),且构象张力能较低,表明其具备热力学可行性。该结果充分验证了FieldTemplater在早期药物发现中推断生物活性构象的可靠性与实用性。因此,基于连续分子场的FieldTemplater方法可作为传统离散药效团模型的有效补充,为无结构信息场景下的虚拟筛选、先导化合物优化及作用机制解析提供强有力的计算支持。

5. 文献

  1. 查寻分子的准备对基于形状虚拟筛选的影响. http://blog.molcalx.com.cn/2025/10/11/the-impact-of-query-conformation-on-shape-based-virtual-screening.html
  2. 化合物31的化学基因组学分析——基于3D形状相似性的靶标预测研究. http://blog.molcalx.com.cn/2025/10/14/shape-based-target-fishing-for-compound-31.html
  3. FieldTemplater. https://cresset-group.com/software/fieldtemplater
  4. Timothy S. Chisholm, Mark Mackey, and Christopher A. Hunter. Discovery of High-Affinity Amyloid Ligands Using a Ligand-Based Virtual Screening Pipeline. Journal of the American Chemical Society. 2023,145(29): 15936-15950. DOI: 10.1021/jacs.3c0374
  5. macrocycle_confgen.py. https://github.com/gkxiao/pyflare-extension
  6. Derewenda, Z. S.; Hawro, I.; Derewenda, U. C─H⋯O Hydrogen Bonds in Kinase-Inhibitor Interfaces. IUBMB Life 2020, 72 (6), 1233–1242. https://doi.org/10.1002/iub.2282.
  7. 用XED力场分析激酶抑制剂的C─H···O=C氢键. 墨灵格的博客. http://blog.molcalx.com.cn/2022/01/31/c-h-o-hydrogen-bonds-in-kinase-inhibitor.html
  8. Froitzheim, T. et al. (2025) “g-xTB: A General-Purpose Extended Tight-Binding Electronic Structure Method For the Elements H to Lr (Z=1–103).” Available at: https://doi.org/10.26434/chemrxiv-2025-bjxvt.