摘要:“从苗头到先导”(Hit to Lead,H2L)的过程是现代药物发现不可或缺的一部分,涵盖了将已验证的苗头化合物(Hit)优化为先导化合物(Lead)的整个过程。高质量的先导化合物通过其活性与理化性质特征以及初步的生物学数据,建立起研究人员的信心。这些数据可能还包括在优化过程中对药理学假设的验证,表明对该靶标和相关结构的进一步投入是值得的。先导化合物应具备通向候选药物的清晰路径,并帮助明确先导优化阶段需要优先解决的关键问题。在本套最佳实践指南中,我们详细阐述了优质先导化合物应具备的核心标准,包括:基于类似物建立构效关系(SAR),以及评估初步的DMPK(吸收、分布、代谢、排泄和药代动力学)指标、选择性以及早期安全性参数。 我们强调识别先导化合物系列中潜在缺陷的重要性,并需证明每个缺陷都可以在保持靶标活性的前提下被单独调控。我们提出应将理化性质作为关键的优化参数,并阐述了配体效率(ligand efficiency)指标如何有助于实现这一目标。接着,我们讨论了将苗头化合物转化为先导化合物系列的通用策略。这些策略包括诸如早期进行的结构拆解式构效关系(deconstructive SAR)研究、药效团(pharmacophore)和生物活性构象的确定以及骨架优化(scaffold optimisation)之类的关键步骤,这有助于提高项目成功的可能性。最后,我们提出了决策标准,以支持对进一步投入的信心;同样重要的是,我们也建议在适当时做出终止某一化合物系列研发的决策依据。
原文:Quancard, J. et al. (2025) “The European Federation for Medicinal Chemistry and Chemical Biology (EFMC) Best Practice Initiative: Hit to Lead,” ChemMedChem, 20(8), p. e202400931. Available at: https://doi.org/10.1002/cmdc.202400931. Read PDF
编译:肖高铿
从苗头到先导化合物的生成
“从苗头到先导”(Hit to Lead, H2L)是药物发现项目的一个关键阶段,是进一步探索和表征那些对感兴趣的靶标展现出潜在活性的、经过验证的苗头化合物的过程。在现代实践中,目标是将这些苗头化合物转化为先导化合物,即我们相信能够在先导优化阶段(Lead Optimisation)进一步优化成为候选药物的化合物2。这些阶段有时是任意或人为定义的,它们反映了研究人员数量、不同学科参与程度以及对特定化学系列实验研究范围的投资程度。在先导优化期间扩展所需的资金和资源投入,使得必须有令人信服的数据来证明这些投资的合理性。先导化合物并非完美的分子,但它具备了一些结构特征、活性水平和理化性质,这些特性在后期可能难以改进3。一个化合物的特性及其对靶标的有效性让我们有理由相信它具有成功的潜力,根据这些数据,研究人员可以识别出需要在先导化合物优化过程中解决的问题。最终,确保高质量的先导物系列在整个药物发现过程中是一个节省成本和时间的重要因素4,其中审慎的选择、设计和实验构成了整体质量的基础。一个高质量的先导物能够对项目背后的药理学假设进行首次实验性验证。例如,验证选择性地针对感兴趣的蛋白能够在细胞疾病模型中引发预期的功能效应——甚至已经在体内实验中已经观察到这种效应。
在《EFMC 药物化学最佳实践》1,5工作组的这第四套建议中,我们探讨了以下问题,这些问题可以为苗头到先导(H2L)阶段提供指导:
- 如何从所有的苗头系列中选择出最有前景的化合物?
- 如何优化化合物的性质以确保获得高质量的先导化合物?
- 在优化一个骨架结构的时候,早期应该考虑哪些策略?
- 如何确保优化工作按预期进行,并知道何时应该停止对某个化学系列的研究工作?
我们制作了一套幻灯片和两个相关的网络研讨会(webinars),这些资源均可通过以下链接免费访问。我们相信,这项工作将帮助学生、初入职场的专业人士以及经验丰富的研究人员更深入地理解这一领域,并对“苗头到先导(H2L)”阶段的项目推进和实验分子质量的评估提供更有利的指导。良好的实践和科学的决策是这些建议方法的核心;在H2L阶段所做的每一个决定和选择都将为后续路径定下方向,并影响最终通往药物开发的道路。以下部分将总结网络研讨会中的几个关键要点。
如何从所有的苗头系列中选择出最有前景的化合物?

图1. 从苗头化合物到药物过程中所需进行的多目标表征示意图。所有这些必要的特性,通过示例性的主成分来描述,都受到分子理化性质的影响。
图1展示了药物发现项目的整个过程,说明了为了满足影响分子有效性和安全性的各项要求,如何对最初的活性苗头化合物进行结构上的改造。在“苗头到先导(H2L)”阶段的努力使得研究人员可以根据早期数据在多个候选系列中做出选择,这些数据提供了关于新兴化合物系列的活性、行为和效率等信息(具体细节见后文)。建立对某一化合物系列能够将体外活性转化为实际疗效的信心,是苗头到先导(H2L)阶段最重要的目标。因此,对“苗头”系列进行充分表征,有助于对最有前景的起点进行优先级排序:
- 首先,如果能观察到初始苗头化合物类似物具有初步的构效关系(SAR),这将大大增强我们对该系列可进一步优化的信心。例如,如果通过特定的结构改变可以在2–3个对数数量级范围内调控对靶点的活性,就表明该苗头化合物可能与靶点之间存在特异性相互作用。
- 然而,如果没有关于可能的药代动力学暴露的初步指标,如溶解度、渗透性和低代谢率,那么即使一系列化合物显示出高活性也几乎没有价值。因此,对于所有苗头系列中的关键代表性化合物,应当生成这些药代动力学数据。
- 此外,关于潜在选择性以及脱靶毒性风险的初步信息,也有助于做出科学决策。
- 最后,虽然合成路线的难易程度、可放大性和灵活性通常不是决定性因素,但在
对化合物系列进行优先级排序时也能起到辅助作用。
另一方面,不应仅基于知识产权(IP)状况来优先选择某个系列,但对这一方面的清晰认识将有助于指导后续优化策略的制定。

图2. 可用于苗头化合物扩展、先导化合物优化和骨架跃迁的计算模拟方法总结,这些方法复杂程度各异,可用于在合成前进行预测或与合成工作相辅相成。
在确认了有效的苗头化合物之后,在开始合成之前,有多种计算技术可用来挖掘公司内部化合物库和/或从多个供应商处获取可购买的化合物,从而扩展构效关系(SAR)、先导或骨架跃迁6,7,见图2。可用的此类技术众多,从简单的子结构搜索8和化学相似性搜索9,到基于分子形状或药效团的方法10,再到基于机器学习的模型11。
如何优化化合物的性质以确保获得高质量的先导化合物?
单靠优化化合物的活性并不是发现安全且有效药物,甚至获得高质量先导化合物的可行策略。在药物发现中,最重要的方面是对分子理化性质的同步优化,因为这些性质会影响其行为、体内分布及疗效12。综合来看,这些因素决定了分子的整体质量,也反映了其在临床试验中取得成功的可能性,这一点已在众多研究中得到证实13。
在药物发现过程中,除了活性和通透性之外,大多数被监测的化合物特性几乎都可以通过降低脂溶性来改善14。这也说明了在药物发现中,为了确保药效而普遍在各项参数之间做出妥协与平衡。

图3. 就像攀登一座山有众多路径一样,药物发现也有多种途径,但对亲脂性(lipophilicity)的合理控制能够引导我们选择一条最优路径。通常,最终结果由化合物的生物活性与亲脂性之间的平衡所决定。图中平行线代表LLE(亲脂配体效率),即pIC50 – log P。
尽管有人建议最佳的亲脂性(以log D7.4表示,在pH 7.4下的分配系数)范围是介于1到3之间15,但这一范围高度依赖于具体的化学系列。如果无法对所有类似物进行实验测定,最佳的做法是针对该系列中一组结构多样的化合物生成实验数据,并据此确定能够带来最平衡的性质和最佳活性的亲脂性范围16。随后,亲脂性和pKa预测模型可以指导优化路径上进一步的分子设计与类似物合成(见图3)17。然而,在当前实践中仍建议进行实际测量,尤其是通过色谱方法,如Chrom log D7.418。
对于中性分子而言,理解其亲脂性是相对直接的,因为它们只能在不同相之间进行分配(在药物发现中,通常使用辛醇-水系统作为标准)——因此“分配系数”(Partition Coefficient)通常表示为log P 12a。然而,对于许多含有酸性和/或碱性中心的分子来说,情况更为复杂。这些酸碱特性由其pKa值定义,在不同pH条件下会显著影响所有分子形式在辛醇和水之间的分布方式,呈现出pH依赖性12b,19。因此,“分配系数”(Distribution Coefficient)是log D在特定pH下的表示形式,是一个对ADMET性质(吸收、分布、代谢、排泄和毒性)具有重要影响的理化性质20。它会影响化合物对在靶(on-target)和脱靶(off-target)的活性、溶解度、渗透性、代谢稳定性以及血浆蛋白结合等特性(见图4)14b。pKa决定了分子在生理pH或局部pH环境下的离子化状态,从而影响其体内分布。因此,在从苗头化合物到先导化合物(H2L, Hit-to-Lead)的优化阶段,调节胺类化合物的pKa值是一个经典的研究方向,目的是找到一个能够在各项性质之间取得平衡的最佳范围21。

图4. 增加脂溶性对各种可开发性结果的影响14b
药物生理作用的实现依赖于化合物在水溶液中与更具疏水性环境之间的相互作用——因此,一定程度的水溶性显然是必需的。此外,口服药物在给定剂量下,必须能够在胃部有限体积的水性环境中溶出,才能发挥疗效。关于溶解性差的合理原因,Bergstrom22曾进行了简明扼要的总结,他将药物发现中的两种极限现象称为“砖尘(Brick Dust)”和“油脂球(Greaseballs)”,这两个概念(编者注:代表了药物开发过程中遇到的两大限制因素,即某些药物要么极难溶于水——象砖尘,要么因为过于疏水而难以溶解——象油脂球)与后来提出的通用溶解度方程(General Solubility Equation)的经验性结论一致23,见图5。简而言之,有三个主要因素影响化合物的溶解性:亲脂性、固态相互作用和离子化状态。明确哪些因素是导致溶解性差的主要原因,将有助于指导后续的优化设计,见图6。

图5. 基于GSE计算并可视化的溶解度预测
根据图5中的分析,人们提出了溶解度预测指数(Solubility Forecast Index, SFI),其原理是:芳香环对溶解性具有不利影响,大致相当于每增加一个芳香环,脂溶性就会增加一个log单位,因此 SFI = clog D7.4 + 芳香环数量24。尽可能减少芳香环的数量是一个重要且具有统计学意义的评估指标25,这也与“逃离平面”(escape from flatland)这一概念一致26,该概念主张提高分子中sp3杂化碳原子相对于sp2杂化碳原子的比例。尽管在对sp3比例的深入分析中尚未观察到明显趋势27。

图6. 通过降低亲脂性/芳香环数量28、 降低熔点29、以及引入增溶基团30等建议的方法,实现溶解度改善的示例。
在早期的H2L阶段,测量溶解性或至少记录实验分子的行为是有意义的(高熔点化合物在所有溶剂中的溶解性都很差!)。通过DMSO储备液进行的高通量溶解性测试可以提供关于该系列化合物潜在问题的有用信息31。但最终,最佳做法是从特性得以明确表征的结晶材料中测量溶解性。随着H2L工作的推进,应从选定的类似物中制备这类材料,以确保获得相关数据,用于指导后续的优化,并在可能涉及溶解过程的数据收集中保证一致性31a,d,32。

图7. 配体效率(Ligand Efficiency, LE)与亲脂配体效率(Lipophilic Ligand Efficiency,LLE)的定义
在苗头化合物筛选中,一个重要的考量因素是优先选择具有较高配体效率(ligand efficiency)的化合物。配体效率定义为每个重原子所贡献的活性(LE = 1.37 × pKi / 重原子数量,见图7a),它在药物发现项目中常被用作衡量化合物质量的一个指标33。多种分析表明,在优化过程中,这一数值平均而言几乎不会发生明显变化20b,27,34,因此在早期SAR研究中,考虑如何保持该数值的稳定性是非常重要的。另一个广泛应用的重要概念是亲脂性配体效率(Lipophilic Ligand Efficiency),即活性减去亲脂性,通常表示为 pKi – log P,见图7b。人们广泛认为它是成功进行药物优化的关键原则之一,适用于苗头化合物的优先级排序和后续的优化过程。提高这一数值意味着在不增加过多亲脂性的前提下获得更高活性的化合物。综合来看,已有研究显示,对于任何特定靶点,最终成药的化合物大多集中在所谓的“前沿”区域,也就是配体效率(LE)和亲脂性配体效率(LLE)都较高的区域20b,35。然而,由于分析结果显示这些指标的数值与靶点密切相关20b,因此为任一指标设定过高的目标值并不明智。推荐的策略是:尽可能提升LLE的范围,并优先关注那些平均LLE值更高的化合物系列27,36。

图8. 活性与性质必需并行优化
可以将本节内容用一个简单但关键的最佳实践来总结:必须同时优化化合物的活性(potency)与相关性质(理化性质和ADMET性质)37,见图8,这样才能获得质量更高的先导化合物,并最终得到更具临床成功潜力的候选药物。虽然这一观点看似显而易见,但由于药物化学家往往“沉迷于追求活性”,实现这一点其实颇具挑战性。因此,不断提醒自己这一关键理念对药物化学家而言仍非常有用38。此外,如果理化或ADMET性质不佳,即使是一个“优良的配体”(good ligand),也可能无法充分回答药理学上的关键问题39。

图9. 一种用于理解实验分子DMPK特性的分级方法建议40
通过采用如图940所示的分级策略生成良好的溶解度、代谢稳定性和渗透性指标,合理使用体内实验可以增强对药物代谢与药代动力学(DMPK)的信心,并确保体外测量结果对化合物系列具有预测性。因此,在H2L阶段尽早开展体内药代动力学(PK)评估,将显著影响优化路径。尽管并非总是可行,但在先导化合物优化前生成PK/PD数据以证明靶点结合和/或体内通路调节,可进一步降低化合物骨架或作用机制的风险。
在优化一个骨架结构的时候,早期应该考虑哪些策略?
尽管每个命中化合物系列都需要特定的优化路径,但在H2L阶段早期采用一些通用策略可能提高成功率,快速决定是否终止对困难系列的优化是同样重要的事。第一个策略是解构式构效关系(SAR)或最小药效团的确定41,通过识别分子中与靶点结合必需的关键结构元素。这一步至关重要,因为它可能提升起始化合物的配体效率(LE)和亲脂性配体性效率(LLE),去除对活性没有贡献但对理化性质产生负面影响的冗余结构。随后,明确药效团元素42将有助于指导优化方向。虽然结构生物学结合信息的存在显然有助于这一过程,但即使缺乏结构生物学数据,也可以通过迭代式构效关系(SAR)结合匹配对类似物(matched pairs of analogues)的方法推导药效团,如图10所示。

图10. 通过迭SAR确定药效团的概念示例。由于每一个结构变化都可能影响结合相互作用、构象和离子化状态,因此需要进行互补的结构修饰,以理解活性变化并确定药效团。
建议将确定生物活性构象作为早期研究的一部分,因为预组织为活性构象可显著提升分子活性。另一个日益应用的策略是利用高通量技术并行合成大量类似物。首先,这有助于快速确定构效关系(SAR)以及结构-性质关系(structure-property-relationship,SPR)。随着机器学习模型在药物发现中的发展,早期生成覆盖骨架周围化学空间的数据可增强这些方法的价值43。这类进展也受益于合成自动化和微型化的技术突破44,目前甚至包括“直接面生物学”(direct-to-biology)的方法,可以在无需纯化得到单一化合物的情况下快速测试类似物库45。
H2L阶段的一个重要策略是修饰分子骨架本身,而非仅优化取代基。这一方法在H2L早期阶段常被忽视,但往往能显著加速该阶段的进展,因为分子母核结构通常决定了其理化性质46。对于性质不佳的骨架,对周边结构的广泛修饰可能对性质改善作用有限,本质上是时间和资源的浪费。用于骨架修饰的计算方法正在不断增加,为更高效地筛选和优先选择上述修饰策略提供了可能46,47。
对于上述许多策略而言,尽早获取该系列化合物与靶标蛋白结合的结构生物学信息(主要通过X-衍射、核磁共振或冷冻电镜技术)可起到关键作用48。因此,一项重要建议是在药物发现项目启动后,应尽早开展结构生物学研究。

图11. 利用机器学习模型预测化合物性质并指导优化的概念工作流程——通过来自实验数据的迭代反馈不断改进模型。
作为最后一点建议49,我们认为,计算理化性质和ADMET性质预测方面的进展,为以“先预测后实验”的理念加速分子优化提供了机遇4,50。第一步是为化合物系列生成足够数据以建立对预测模型的信心51,随后可以利用这些模型来优先选择符合目标性质的化合物进行合成。这样可以确保更高的理化性质质量,提出更相关的问题,并可能减少为了获得先导化合物所需合成的分子总数,如图11所示。
如何确保优化工作按预期进行,并知道何时应该停止对某个化学系列的研究工作?
先导化合物并非完美药物,但它提供了理由相信该化学系列可能最终可交付有效药物。H2L(苗头到先导化合物)以及后续的先导优化阶段的核心在于确保优化工作持续推进,从而证明进一步投入是合理的。一些关键问题有助于实现这一目标:您的系列是否展现出动态的SAR和可实现的预期活性?初步的ADMET数据是否令人鼓舞?是否有在适当暴露水平下体内效应(药代动力学/药效动力学)的证据?剩余的挑战是否具有动态的SAR并能建立优化信心?为回答这些问题,关键在于监控优化轨迹,例如通过随时间推移跟踪相关性质的变化。若缺乏进展,停止对某个骨架或系列的进一步研究可能是合理的,从而将资源集中于其他有前景的结构,或基于数据推荐项目终止。
结论
总之,我们强调H2L(从苗头到先导化合物)阶段在优化项目成功中的关键作用。在选择经过验证且可操作的苗头化合物结构后,化学家应系统地对分子结构进行改造与探索,以研究该系列中的SAR和SPR,并随着研究推进,逐步引入其他学科同事的协作以拓展数据获取。这些研究的成果将决定是否值得进一步投入资源以寻找候选药物。为了确保所研究的化合物系列具有高质量,遵循系统化的H2L方法是至关重要,本文提出的策略将有助于实现这一目标。大型制药公司药物化学部门通常设有专职的H2L化学家或H2L团队,这一现象进一步凸显了H2L阶段的重要性。
除了介绍H2L优化最佳实践的网络研讨会外,我们还准备了两个案例研究,分别为靶向HSD17B1352和MALT153的抑制剂,这些案例具体说明了上述建议和策略。所有材料、幻灯片和网络研讨会内容均可在开放获取平台获取。鉴于提供这些材料的主要目的是教育推广,我们欢迎领域专家提供反馈,以持续完善内容并为社区提供更多案例研究。