摘要:虚拟筛选往往产生大量苗头化合物,如何从中高效识别出有研究价值的分子是药物发现早期阶段的关键挑战。本文提出了一套基于绝对自由能微扰(ABFE)计算的虚拟筛选结果分拣工作流程,并以TYK2(非受体酪氨酸激酶2)为靶点进行实例演示。该流程依次包括:基于理化性质的多参数优化打分(含PAINS过滤和扭转角频次筛选)、静电互补性评估、水合自由能QSAR预测、蛋白质-配体相互作用指纹聚类,以及分子动力学模拟验证配体结合构象的稳定性。最终,通过ABFE计算对候选化合物的结合自由能进行精确预测,从而确定最具潜力的合成与测试优先级。结果表明,该工作流程能够从一个已知晶体结构的单一配体出发,识别出多个具有不同化学骨架且预测活性较高的新型苗头化合物。该方法有望显著降低药物发现早期阶段在化合物筛选、采购/合成及测试环节所需的时间与成本,为计算辅助药物设计提供实用范例。
作者:Michael Goldstein与Stuart Firth-Clark
时间:2026-04-23
前言
进行虚拟筛选可能会产生大量的苗头化合物。在此,我们讨论一个用于对虚拟筛选实验结果进行分拣(优先级排序)的工作流程,其采用绝对自由能微扰(absolute free energy perturbation,ABFE)计算来评估这些化合物的结合亲和力。该流程及类似的流程旨在为某个项目识别出有研究价值且具有活性的新型替代性苗头化合物。
本例以非受体酪氨酸激酶2(TYK2)为靶点,TYK2是Janus激酶(JAK)家族的成员之一。TYK2与细胞因子和生长受体相关,因此成为炎症性疾病的治疗靶点。本文使用Flare™下载并准备了一个TYK2蛋白晶体结构(PDB代码:4GIH)1,并提取其配体作为Blaze™虚拟筛选的查询模板(query template)。该筛选利用Cresset的技术2,寻找与查询分子具有相似静电特征和形状特征的新分子。最初,从虚拟筛选结果中挑选出前7500个结果,用于进一步的分拣处理。
基于理化性质的过滤
我们首先使用PAINS3过滤器识别并去除了含有可能导致非特异性检测读数的子结构片段化合物。随后,采用多参数优化函数对剩余化合物进行分拣,该函数重点关注理想的分子特征和理化性质:具体通过Flare软件中的径向图功能实现,其中将分子量、SLogP、TPSA、氢键供体数、氢键受体数、环数以及可旋转键数纳入打分体系。MPO中的每个属性均设定了特定范围,以优先筛选出类先导化合物。由此,MPO对分子的打分为0至1之间,我们将化合物通过筛选的标准设定为\(MPO score ≥0.7\)。

图1. 左图展示了特定分子未通过PAINS过滤器的原因可视化(左侧提示框)。右图为用于基于理化性质对分子进行评分的径向图配置。
由于虚拟筛选算法常常会产生不合理的扭转角,我们应用了一个过滤器来去除含有过多罕见扭转角的分子(即那些在剑桥结构数据库(CSD)中极少出现的扭转角)。具体标准为:允许最多一个低频扭转角(即CSD数据库中极少出现的扭转角)和最多三个中频扭转角。完成基于理化性质的打分后,我们创建了一个标签用于筛选掉未通过的分子。

图2. 扭转角频次可视化(绿色表示常见,黄色表示不常见,红色表示罕见)。同时展示了通过径向图按静电互补性(EC)、对接打分(LF VSscore)和Blaze打分对分子进行评分的配置。
基于静电互补性进行筛选
作为一项正交打分指标,我们基于对接打分、与蛋白质的静电互补性(EC)以及Blaze打分,针对排名前7500个的化合物构建了另一个径向图(MPO)。对接打分采用“仅打分”方法(score only)中的固定构象选项进行计算,所用构象由Blaze生成。计算出径向图打分后,我们筛选出打分高于0.65的分子进行进一步分拣。随后,我们对Blaze输出结果中接下来的7500个化合物重复了初步分拣步骤(包括PAINS过滤、优选的理化性质特征、扭转角过滤器,以及相互作用和配体相似性打分)。最终,将两批化合物中所有通过筛选的化合物合并为一个数据集。
我的分子是否存在潜在的溶解度问题?让我们在测试前进行预测
测试溶解度差的化合物可能导致不可靠的结果,因此分拣流程的下一步是使用QSAR模型预测哪些化合物可能存在溶解度问题,并将其从数据集中移除。该模型采用梯度提升方法(gradient boosting method),基于Mobley和Guthrie4的数据集,利用RDKit描述符来预测水合自由能。我们在Flare中使用513个分子作为训练集、65个分子作为测试集、64个分子作为预测集来构建模型。所构建的QSAR模型能够提供模型预测的置信度水平,任何被预测为溶解度差且具有高置信度水平的配体将从虚拟筛选苗头化合物数据集中移除。

图3. 左侧展示了我们水合能QSAR模型的可预测性,右侧展示了水合能差的分子如何被过滤并排除出进一步考虑范围。
寻找具有独特蛋白质-配体相互作用的分子
下一步过滤使用了Flare中的一项功能,即通过蛋白质-配体相互作用指纹对分子进行聚类。这使得我们能够高效地识别出与TYK2具有不同相互作用模式的分子。同时,我们还通过二维相似性对分子进行聚类,以评估化合物列表的化学多样性。在进入下一阶段的每个聚类中,我们选择径向图打分最高的分子作为代表。
构象是否稳定?
在对分拣结果的聚类进行视觉检查后,我们挑选了代表性分子进行分子动力学模拟,以确定配体构象在蛋白质活性位点中是否稳定。我们将稳定性定义为:在20纳秒模拟过程中,配体相对于Blaze查询配体构象的RMSD保持在2.0 Å以内。稳定的配体将进入绝对自由能微扰计算阶段,以筛选出那些预测结合自由能最优的分子。

图4. 特定配体与蛋白质之间的相互作用接触图,注意青色的强氢键。左侧为通过PLIF聚类生成的树状图。

图5. ABFE结果子集。 底行:Blaze查询分子及一个Spike分子显示了它们测得的结合自由能值(以“A”为前缀表示实测值,“AP”表示预测值)。顶行:展示了部分通过前期分拣并完成了ABFE计算的分子。这些分子尚无已知的结合自由能,因此仅显示其预测结合能(AP)。红色边框标记的两个分子因结合能力过弱而不具备研究价值。黄色边框标记的分子具有一定研究价值,但不是结合能力最强的;而绿色边框标记的分子则是预测结合自由能最强的化合物。
ABFE结果:哪些分子值得合成与修饰?
自由能微扰(FEP)计算能够精确估算配体与靶标蛋白质之间的结合自由能。ABFE计算在估算结合自由能时,不依赖于数据集中任何其他配体。这使得ABFE成为我们当前场景下的理想方法——我们已经从不同化学系列中识别出若干有研究价值的配体,但需要进一步筛选出那些结合自由能更高的配体。
在我们的研究中,ABFE计算结果表明:参考配体以及我们纳入虚拟筛选数据集的已知活性化合物均具有较高的预测活性。除了这些预期结果之外,ABFE还识别出一个含有4-甲基-2-嘧啶胺基团的、预测结合能较高的有前景化合物。在实际项目中,这些有研究价值的苗头化合物可以通过采购或合成获得,为项目提供新的起点。在本例中,含有嘧啶基团的化合物实际上已在Liang等人1的原始工作中被报道过。这证明了我们的虚拟筛选和分拣流程能够为项目找到化学结构迥异的新起点。
结论
本研究的关键结论在于:我们能够从一个晶体结构中的单一配体出发,识别出具有不同化学结构类型且预测活性较高的苗头化合物。这些化合物可以作为湿实验的可靠起点。而如果不进行计算分拣(优先级排序)工作,药物化学家可能需要探索更多的化学路径,从而因耗时长的反应和后续筛选工作而增加开支。因此,ABFE有潜力降低从虚拟筛选中筛选、采购/合成以及测试活性化合物所需的时间和成本。
为何选择Blaze与Flare?
将Flare与Blaze虚拟筛选平台结合使用,能够提供极具价值的结果,为药物化学项目提供启动助力。Blaze允许您从一个具有活性的单一配体出发,通过搜索商业可得的化合物库,提供多样化的虚拟苗头化合物集合。Flare则提供了一套多样化的方法,用于对这些虚拟筛选结果进行优先级排序,帮助识别哪些化合物值得重点关注。
文献
- Liang J. et al.; Lead identification of novel and selective TYK2 inhibitors. European Journal of Medicinal Chemistry. 2013, 67, 175-187
- Cheeseright T., Mackey M., Rose S., Vinter, A.; Molecular Field Extrema as Descriptors of Biological Activity: Definition and Validation. J. Chem. Inf. Model. 2006, 46 (2), 665-676
- Baell, J.B., Nissink, J.W.M. Seven Year Itch: Pan-Assay Interference Compounds (PAINS) in 2017 – Utility and Limitations. ACS Chemical Biology, 2018 13 (1), 36-44
- Mobley, D.L., Guthrie, J.P. FreeSolv: a database of experimental and calculated hydration free energies, with input files. J Comput. Aided Mol. Des. 2014 28(7) 711-720