摘要:本文作者Van Drie JH是BioCAD(其产品为Catalyst软件,后来被Accelrys收购)的发起人之一。在本文中,他回顾了药效团的概念、基于药效团的数据库搜索及它们方法演变的历史。
原文:Van Drie JH. History of 3D pharmacophore searching: commercial, academic and open-source tools. Drug Discov Today Technol. 2010;7(4):e255-e262. doi:10.1016/j.ddtec.2010.12.002.
编译:沈阳药科大学计算机辅助药物设计实验室
日期:2019-04-05
前言
药效团的官方定义是1:
能够符合特定生物靶标特征的一系列空间和电子特征的组合,符合该特征的分子可以激动或阻断该靶点的生物反应。
药效团不代表真实分子或官能团的真实分子连接关系,而是纯粹的抽象概念,其解释了一组化合物对其靶结构的共同分子相互作用能力。药效团可以被认为是一组活性分子共有的最大公共因子。
可以更简单地说:”药效团是生物活性必需的化学特征的空间排列”,它是一类生物活性分子出现的一种模式。最着名的药效团是”CNS药效团”2 ,其在大多数 GPCR A族(CNS =中枢神经系统; GPCR = G蛋白偶联受体)的激动剂研究中常见(Figure 1)。
Figure 1. CNS药效团。“N:”是指碱性胺,具有游离孤对电子的胺(例如,不包括与芳环连接的氮 ,或者是酰胺键一部分的氮)。大量的CNS活性分子可以采用与该药效团一致的构象,其碱性胺与芳环中心分开5-7Å。
药效团已经以多种方式证明了它们的实用性。在药物发现工作中,当生物大分子靶标的结构不可获得时(实验上要么通过X-射线晶体学、要么NMR方法,再或者通过同源建模)可以建立药效团作为低分辨模型以帮助了解构效关系和影响活性的主要因素。适合使用药效团来预测活性的靶标的标准实例包括离子通道,非标准GPCR(标准GPCR的A家族现在通常用同源模型即可建立较好的模型)和转运蛋白(例如多巴胺转运蛋白或血清素再摄取转运蛋白)。药效团还可以作为基于结构的设计项目中脱靶效应的低分辨率模型,例如hERG模型3。在这种情况下使用此类药效团模型的主要方式是在3D中叠合活性物质和非活性物质,使药物设计者了解实现活性所需的特征。基于药效团的叠合也可以用作CoMFA的输入文件4,这可以使CoMFA模型更为准确;注意CoMFA需要叠合,而使用药效团可以对此进行预处理。
药效团最令人振奋的应用是搜索三维数据库来发现新颖的生物活性小分子。在20世纪80年代中期常常可以听到药物化学家这样抱怨:“你总是在我发现了分子活性的事实之后才进行解释,但你永远无法告诉我我应该研究哪些分子”。人们已经证明基于药效团的3D数据库搜索可以解决这个问题5–基于药效团模型的前瞻性预测,通过搜索分子构象数据库,获得的化合物样品可用于生物活性测试。虽然许多虚拟的命中化合物显示没有活性,但是即使1%的命中是活性的,这种方法也可能对药物发现团队有意义,因为分析现有化合物的成本通常很低。命中率接近10%并不罕见。使用药效团搜索3D数据库的工作在70年代末期6首先由Peter Gund开展,20世纪80年代后期新方法的发展及其在第一次成功虚拟筛选中的作用使这些技术进一步突出7-9; 与此同时,这些工具从学术研究领域6,10和某些企业的专有研究技术7转移到商业领域,特别是像ALADDIN和MACCS-3D,这都增进了药效团方法的适用范围和使用环境。
使用药效团搜索3D数据库的必要前提是从SAR(结构-活性关系)中概括药效团的过程,该过程被称为药效团识别(pharmacophore identification)、药效团确证(pharmacophore elucidation)或药效团发现(pharmacophore discovery)。这项工作也源于20世纪70年代后期的学术实验室11-13,其次是企业专有技术研究的重要贡献14; APOLLO应该是第一个全自动化药效团建立程序,由Konrad Koehler和Jim Snyder发明的APOLLO缺乏的是不能区分不同药效团的重要性。以完全自动化的方式执行药效团建立的第一个软件是Catalyst(由现已解散的BioCAD公司创建,该公司于1994年被Accelrys收购),在这之后的20世纪90年代初引出了许多相关产品,尤其是DISCO15和GASP16。
接下来的文章内容是根据已发表的记录和作者的回忆来描述这种历史进程。前者可能记录的并不完整,因为对于商业领域中发生重大演变的记录,可能调整前因后果的对应关系;而后者可能是错误的,因此这并不是一项简单的任务。幸运的是,对于这个历史的同期描述出现在20世纪90年代中期5; 不仅有印刷品,还有在线资料,并且由于历史的参与者提供了纠正性反馈,因此文章需要不断修订。
此外,请注意,本文并不是一篇完整的综述。在过去的10年里,已有许多这样的综述文献17-22。此外,该期刊DDTT的无疑将成为一个极好的切入点。
最后还要提醒的是,将任何科学史关联起来都会不可避免地引发争论。费曼关于“货物崇拜科学”的著名演讲阐明了科学研究中的一些挑战23。此外,托尔斯泰的《战争与和平》中描述了一位将军所面临的挑战:“如果他把真相告诉他的听众,他们像他一样……已经对什么是袭击有了一个明确的概念,并且正期待着听到这样一个故事……他们不会相信他……。要把事情原原本本地描述出来,只说出事情的真相,就需要极大的自制力。说实话是很困难的……。”
无论如何,如果有读者对本文所述的历史有异议,请直接与作者联系。这种情况过去经常发生,这种迭代过程可能会继续下去。
1968年至1985年近代的先驱
药效团的概念起源于Monty Kier在1968年至1971年的一系列论文中提出的24-26。事实上,他不仅介绍了这个术语并且计算出了第一个药效团,而且在那些论文中,Kier很有先见之明地描绘出了现在被称为“基于配体设计”的整个过程;关键的一段出现在一本不知名的书的章节中,但在参考文献中其被完全的引用27,网上有一篇文章,对药效团发展史感兴趣的人来说都值得一读。Kier的工作直接地激发了几位后继者:Hans-Dieter Höltje,Yvonne Martin,Graham Richards,Peter Gund,当然还有Garland Marshall。1977年,Gund第一个将药效团与搜索引擎连接起来,搜索三维构象的数据库6;这些三维构象是由晶体学确证的结构。Gund的工作反过来又启发了Brint和Willett10,他们的工作在20世纪80年代中期进行。在1970年代末到1980年代中期,药效团方法最著名的践行者,圣路易斯Washington大学的Garland Marshall,不仅成立了第一个分子模拟软件的商业销售公司Tripos,并且还共同创办了《Journal of Computer-Aided Molecular Design》杂志,该期刊早期发表了大多数关于药效团主题的手稿。Marshall及其同事的方法被称为“活性类似物方法”28。特别是,关于药效团重要性自动决定方法论的最重要的出版物之一,作为第一篇论文出现在Marshall的杂志CAMD第一期上,《血管紧张素转换酶活性位点的独特几何形状与构效研究》12。奇怪的是,Marshall本人从未研究过3D数据库搜索,而Tripos公司直到1990年才开始进行这项工作,那是在Marshall放弃控制权数年之后。
Marshall和他的同事对药效团概念最重要的贡献是将这一概念扩展到包括假定位点的立体边界,以及官能团的空间布局。他们开发了一种简单的方法来计算这些边界,方法是将包含所有活性分子的体积减去包含所有非活性分子的体积。当分子是刚性或生物活性构象是已知时,这是惊人的有效。
另一个完全不同的发展路线是由Crippen在20世纪70年代末发起的11,这产生了子领域“距离几何”。这条路线被几个研究者13,29所追求,并在Crippen关于“Voronoi polyhedra”的工作中达到顶峰,该工作试图基于构效关系30推断结合位点的形状。在今天的方法中,这些努力的主要贡献是在穷尽法的构象分析中应用距离几何。
现代1987年至1990年
在Abbott ALLADIN,我们工作最初的目标7,8,是采用药物化学家的观点来决定一个分子是否具有活性,并且搜索数据库寻找符合这种模式的现有分子,以及用可以合成的分子来扩充数据库。最终,我们逐渐意识到药物化学家的这个观点就是药效团,而且ALADDIN超越之前成就的关键创新就是通过药效团这种语言传递给非常复杂的计算机,此种语言能够表达出人类考虑的所有类型的分子特征间的关系。ALADDIN语言描述了官能团(例如苯环,H键受体)之间的几何关系(点之间的距离,点之间的角度,扭转角度,平面之间的角度,平面之上的高度),以及配体外部的立体边界(Figure 2)。难点在于为药效团定义一种语言,该语言承接Marshall等人的工作,包括了多年来Abbott开发的基于配体的模型的所有重要元素,其中包括标准药效团和受体位点的假定边界。这种ALADDIN语言在随后的软件中被广泛采用,但通常采用精简形式。
在ALADDIN的第一次应用中,它发现了一个课题的新先导化合物,该课题在原来的设计思路中受到了阻碍;因此他们改变了方向,接受了新的技术,并迅速发现了一种适合进入临床的化合物。该故事的细节很少出现,部分原因是当时律师担心计算机发现的分子可能不是新颖的,但是在整个20世纪80年代后期,Yvonne Martin在谈话中大量提到这个案例。这个故事最终由Martin于1992年出版8;我们必须仔细阅读这份手稿,追查引文等,以便精确地弄清楚究竟发生了什么。
多种独立技术汇集在一起,促进了我们在Abbott的工作。我们依靠Dave Weininger的软件进行子结构识别(他当时正在Pomona学院与Corwin Hansch合作;不久之后他成立了Daylight公司)。我们最初的3D数据库搜索是使用Abbott化合物库的一个子库,里面均是过去合成的分子,每个分子都有多个构象31。之后我们思考着对如何将其扩展到大规模分子库,同时正在研究Doizta在WIZARD32上的工作33。这时Bob pearlman关于CONCORD的报告出现了。CONCORD可计算出一个近似的三维构象,最初由Evans&Sutherland商业化,之后由Tripos接手。在Abbott,Mark Bures通过与我们现有的3D数据库进行比较,测试、验证这些CONCORD计算构象的正确性;他是将公司化合物库(当时大约有100,000化合物)转为3D数据库的第一人, 几乎所有主要的制药研究机构都开始使用这么使用该程序。Molecular Design有限公司(即后来的MDL,现在是Accelrys的一部分)此时有一个名为MACCS的化学数据库产品,被药物化学家广泛用于其内部化合物库的子结构搜索。在了解了我们在Abbott有关于ALADDIN工作后(在MDL副总裁访问Martin后),MDL提出了一个联盟,以开发MACCS-3D,这是一种采用我们在ALADDIN开发的药效团描述语言的3D数据库搜索软件。Doug Henry和Tom Moock是这次MDL工作的主要开发者。这个新兴领域的第一个“新闻报道”出现在1990年的化学和工程新闻(Chemical and Engineering News)中,突出了分别由Tripos,MDL和Daylight商业化的CONCORD,MACCS-3D和ALADDIN。Martin于1987-1991期间在许多讨论中广泛提及了ALADDIN的成功经验;ALLADDIN的首个成功案例是发现一个D1激动剂先导化合物,其准备进入临床试验,但是它似乎并没有被进一步推进。默克是MACCS-3D的早期使用者之一34。最近有文献报道35提及相关内容,即Merck首次发表的将虚拟筛选应用于非肽纤维蛋白原受体拮抗剂项目,参见Hartman的文献9。
Figure 2. ALADDIN语言中描述药效团的方法,后来也出现在Ctalyst中。(a)说明了典型的原子间关系:点之间的距离,可能位于一组原子的中间,点之间的角度和扭转角度。(b)描绘了两个平面之间的角度关系。(c)显示了平面上方点的高度与空间位阻(以橙色球体显示)之间的关系。
在这种情况下,使用不复杂的药效团从Merck化合物库中挑选化合物,发现了一个低摩尔浓度具有活性的化合物。这份报告特别最值得注意的地方在于,这一先导化合物最终发展成了默克公司的Aggrastat,这是1999年FDA批准的一种药物。
ALADDIN和MACCS-3D的范例是在药效团搜索的研究的早期阶段中的许多范例之一。Willett等人在Sheffield的工作早已被注意到;另一个重要贡献来自Bob Sheridan等人在Lederle的工作36。Berkeley的Paul Bartlett采取了一种名为CAVEAT的新颖而富有成效的方法:这种方法使用仅指定矢量关系的查询来搜索3D数据库37,例如找到肽模拟物,可以识别关键原子及其对邻居原子的定位,寻找能保持这些关系的刚性有机化合物骨架。
20世纪90年代早期药效团搜索的传播
1990年,Tripos建立联盟以开发了一种基于药效团进行3D搜索的产品(作者就是该项目的顾问)。这最终发明了UNITY-3D,它首次出现于1992年。同样在1990年,作者作为硅谷新创业公司BioCAD的十几位创始成员之一,他们将最先进的计算机科学与这个崭露头角的领域相结合;我们在1992年推出了Catalyst软件,并于1992年4月在旧金山举行的美国化学学会会议上发表了一系列论文。BioCAD的主要创新在于他推出了第一个药效团发现的完全自动化的方法“Hypothesis Generation”17。它还有自己的构象分析方法,避免了使用CONCORD用于3D数据库构建。BioCAD于1994年被Accelrys收购,后者继续推广Catalyst,并将其算法集成到其他产品中。受到Catalyst首次亮相的刺激,Abbott集团首次发布了自动药效团发现方法DISCO15,后来由Tripos商业化。
这个时代关键的科学挑战是确保3D数据库正确地处理配体的柔性。在前一个时代,我们主要依靠单一构象数据库(尽管如此,我们在Abbott的初始3D数据库每个分子都有多个构象)。在20世纪90年代早期,随着MDL从基于大型机的MACCS软件转变为用户友好的客户端服务器软件ISIS,他们引入了一种处理这种构象柔性的新方法:CFS(构象柔性搜索,conformationally flexible searchin)算法38。最新版本的Tripos UNITY-3D软件有自己的处理配体柔性的方法–“directed tweak”39。BioCAD推出的最后一个版本Catalyst包含了自己的构象柔性搜索算法,该算法与每个分子存储多个构象异构体相关联(未发表,与所有关于Catalyst的内情一样)。本文作者发表了一篇表述模糊的论文40,它描述了一种方法,该方法允许用户客观地评估这些不同方法在构象柔性搜索的表现;对于严格定义的药效团,这种构象差异很重要,多个构象异构体的组合加上构象柔性的搜索是最好的。
1993年,Biosym(之后被Accelrys合并)引入了Apex-3D41,基于Golender等人的早期2D工作42,Apex-3D的功能类似于Catalyst的“Hypothesis Generation”,即自动药效团生成。这与任何药效团3D数据库搜索引擎无关。最初的2D工作只关注拓扑功能。鉴于文献的缺乏,评估Apex-3D是很困难的。
1995年到现在
现在商业参与者注意力更多地集中于这些方法在药物发现中的实际问题的应用,而不是方法创新。但Jain等人的COMPASS43是个例外。COMPASS像Catalyst那样试图找到所有活性分子的最佳共性,但创新地并没有要求所有药效团特征以通常的方式叠加,而是优化生物活性构象并同时构造活性构象。
在20世纪90年代早期到中期,Molecular Networks推出了CORINA。Molecular Networks是一家从德国Erlangen的Gasteiger集团分拆出来的创业公司44。与CONCORD一样,它用于产生高质量的构象。OMEGA于20世纪90年代中期由OpenEye科学软件公司推出,并能够以适合的速度生成多种构象;有关OMEGA的详细信息最近已发布45。在20世纪90年代中期,Chemical Computing Group的MOE软件得到了增强,包括药效团搜索和药物发现。独特的是,它们使用某种类型的特征映射时,这些特征映射将特征放置在它们映射到的原子上方,这通常会导致不直观的表现形式。
在新千年的第一个十年中,经过Thierry Langer的努力,奥地利成为了药效团方法和应用的兴趣中心。虽然Langer最初的集中于使用Catalyst46,但他于2003年创立了Inte:Ligand,Gerhard Wolber和Hermann Stuppner专注于他们自己设计的新工具Ligandscout47,Ligandscout用于提供药效团3D数据库搜索和药效团发现。
2006年,计算化学软件供应商Schrödinger推出了一种新的药效团发现工具PHASE48,显然旨在模拟Catalyst的Hypothesis Generation药效团生成功能,用于自动化药物发现。
2008年,BioSolveIT推出了LeadIT软件,其中包括一个用于执行3D数据库搜索的组件ReCore,可以使用用户定义的药效团,也可以使用类似CAVEAT的矢量关系(http://www.biosolveit.de/LeadIT)
1995年至今:学术和非商业努力
药效团识别问题的一个有趣的新尝试出现在“归纳逻辑程序设计”的标题下,例如Finn51,Srinivasan52。 MIMIC是一种独立但与GASP相似的智能方法,出自Upjohn实验室的Doug Rohrer,Jim Petke和Gerry Maggiora53之手,后被Jordi Mestres扩展为虚拟筛选工具,并在他的Organon54中投入了丰富的应用。与GASP一样,MIMIC依靠场相似性进行叠合。FEPOPS(特征点药效团)由Novartis的Jeremy Jenkinset等人开发并获得专利,该方法使用药效团样描述符进行虚拟筛选和分析高通量筛选数据55。
这篇作者开发了一个名为DANTE56-58的软件,它与Catalyst原有的算法密切相关,同时试图解决Catalyst的众多缺点;这些算法已经发布,但从未商业过。一个关键的进展是引入了“shrink-wrap”算法来确定受体位点的空间边界,而不必事先了解生物活性构象,这是我们在Catalyst中尝试过的,但没有成功。
开源或免费的药效团工具
开源软件运动正逐渐在计算机辅助药物设计领域扎根。第一批出现的工具是2000年的Chemistry Development Kit(CDK),是Steinbeck,Willighagen和Guha的大作59。Guha和Van Drie60最近推出了基于药效团的3D搜索工具,它是一种用有限语言表达几何关系和采用命令行用户界面的简单工具。该工具已经集成到Bioclipse61的3D图形用户界面中。
构象分析工具也在慢慢出现。Ballon62不是开源的,但其二进制格式可以免费获得,以相对高质量的方式计算每个分子的多个构象异构体。RDKIT63是真正的开源程序,并可用于生成化合物的多构象。RDKIT在2008年用于计算世界上最大的多重构象三维数据库emolecules,由世界范围内商品化合物库组成,大约含有500万个化合物,可作为虚拟筛选社区的开放资源。
Pharmacophore.org成立于2008年,主要针开源资源的提供指引,供那些对药效团搜索和发现感兴趣的人使用。
为什么药效团有效?
药效团看起来太简单了以致于怀疑它能否有用。我们想象中的分子识别非常复杂,配体和受体之间形成了数十种不同类型的相互作用。特别是在虚拟筛选中对新配体进行前瞻性的搜索,怎么能够用一对或三个官能团一样简单东西来高效的表征呢?
Figure 3.(a)在一个随机筛选中的活性分布的理想化视图。只有一小部分分子的活性超过了被认为是“命中”的阈值。(b)将随机筛选的活性分布与虚拟筛选分布进行比较。曲线均值的小位移,也就是很小“信号”,转化为活性物质比例的巨大变化。
根据作者的经验,有两个答案,第一个来自于经验,第二个基于第一性考虑。Figure 3a用直方图显示了随机筛选预测的活性值分布。随机筛选命中的活性分布于整个活性区间(x轴为活性,右侧活性更高,y轴为具有活性的化合物比例)。在没有经验因素的参与下这些分布应遵循这里所示的高斯分布; 显然无论它有什么形状,在极端情况下图像都可能有小尾巴。如果有人实际测量并以这种方式报告数据的话将会很有帮助。超过活性阈值的化合物被认为是“有活性的”,通常占随机筛选的0.2-0.3%,分布于阴影左侧尾部。右边是一个虚拟筛选的假想输出。曲线仍为钟形,中心与原始曲线略微偏移。只需要一个小的“信号”来向左移动曲线的中心,尾部就很容易从0.2-0.3%增长到5-20%,这是人们通常看到的命中率的体现。有许多方法可以实现这种“信号”,因为各种成功的虚拟筛选方法都证明了这一点。
第二个答案需要深入了解配体-蛋白质相互作用的热力学。巧合的是,Böhm的论文首先提出了将打分函数定义为自由能贡献的线性加和概念64,与Mark和van Gunsteren相差几个月发表的的一篇论文相比,他们在理论上解释说不可能将自由能分解为一组成分的加和65。从基于片段的设计工作中收集的数据来看,可以越来越清楚地看到,一些相互作用对结合的整体自由能有着深远的贡献,有些相互作用更少,这也是van Gunsteren所做的重点。基于片段的设计使我们关注那些做出最大贡献的相互作用。类似地,药效团似乎可能按照在其贡献方面排序而突出了前两个、三个或四个官能团的重要性。换句话说,药效团的特征可以代表对总ΔG值具有最大贡献的官能团。
当今对药效团的使用
药效团的使用一直在变,以应对不断变化的科学潮流和随着硬件的发展而改变的计算调整。二十年前,我们通过对含有10万个化合物的公司化合物库进行药效团3D搜索来进行虚拟筛选。随着对接变得更加可行,并且随着分子库的增长,药效团搜索的最常见用途是作为初始过滤器,将分子数量减少到对接程序可以处理的大小。随着Linux集群的普及,人们现在可以看到药效团类型的分析,以便在虚拟筛选中出现的成千上万次对接结果中寻找相互作用模式。虽然有些人试图争论药效团搜索比对接是否“优越”,但显然是互补的。John Irwin和Brian Shoichet提供了一个对接服务器,DOCKblaster 66;相信离有人提供药效团搜索服务器、使用公共和开源工具连接到诸如eMolecules的500万分子之类的3D多构象数据库的那一天并不会太遥远了。
如果能够查看当今大多数制药公司的项目组合,可以看到所有项目中约有三分之一的X射线衍射结构可用基于结构的设计(SBDD)推动;三分之一的项目可用同源模型来进行,如同SBDD一样;但是剩余三分之一没有结构信息。对于这一部分项目,药效团工具仍然是理解SAR并推动项目向前发展的主要方式。
此外,通常只有那些重要的靶标蛋白有结晶结构可供SBDD使用。还有数十个脱靶靶点应该建模,例如hERG是一种常见的脱靶靶点。Cavalli等人发表的hERG药效团证明是理解hERG活性的有效工具。
一些人质疑我们现代药物发现是否仅仅只是一种“玻璃球游戏”67。在计算方法学的舞台上,我们必须学会保护自己免受这种伤害。为此,药效团方法学的发展使得作者对计算对照的重要性有了深刻的认识56。这对于整个计算机辅助药物设计领域来说都具有更广泛的价值,无论是QSAR、对接、还是药效团方法。在评估一种新方法(无论是自己的方法还是其他人的方法)时,应该严格设计和应用计算对照组以确保结果具有实际意义。以同样的方式,医学和细胞生物学家学会设计对照实验变量以排除人为数据或对数据做出错误解释,我们计算机辅助药物设计必须学会使用对照实验来评估我们方法的可靠性,然后再将这些方法与实验科研人员合作使用。当然,在虚拟筛选中,我们正在将我们的工具放入明确的前瞻性应用项目中,这本身就可以使我们免于陷入“玻璃球游戏”中。
结论
自1968年推出以来,药效团一直是一个非常有用的概念。用于药效团发现和基于药效团3D搜索的工具正不断地向前发展,并一直产生广泛的影响这都是每个CADD科学家应该精通的工具。