摘要:Activity Atlas是一种定性构效关系分析方法:研究其静电、形状、疏水性质与活性的函数关系。它用三种分析回答三个基本问题:1) 平均活性分析:活性化合物的公共属性;2)活性悬崖:结构是如何影响活性的?; 3)区域探索分析:哪些区域已经探索到,哪些还没有?此外,新颖性打分还能回答化合物对数据集信息的贡献,这可以帮助你设计更多样的化合物以探索结构-活性关系。比之传统的CoMFA等3D-QSAR提供了更多的可用信息。

一. 前言

Activity Atlas是一种分析结构-活性关系的概率统计方法:一系列叠合好的化合物,研究其静电、形状性质与活性函数关系。Activity Atlas采用贝叶斯法(Bayesian approach)用定性的方式从全局的观点审视数据。计算结果通过Forge的可视化功能呈现出来:帮助您理解静电、疏水、形状特征在3D空间部分对化合物活性的影响。

当预测性的基于场的QSAR模型难以获得的时候,Activity Atlas可以对合理大小的数据集(至少20个化合物)生成定性SAR模型。与3D-QSAR一样,该方法需要对数据集中全部的化合物进行基于3D相似性的分子叠合、对错误叠合以及叠合噪音敏感。Activity Atla执行三种不同的数据分析方法来回答下面的问题:

  • 活性化合物具有什么样的公共属性? → 平均活性(Average of Actives)
  • 活性悬崖Activity cliffs)告诉了我们什么样的SAR信息? →活性悬崖的总结(Activity Cliff Summary)
  • 对于一个新化合物,该分析是否可以增加我们对SAR的理解?→区域探索的分析(Regions explored analysis)

在进行模型计算的时候,Activity Atlas采用概率统计的方式评估分子得到正确叠合的概率,而不是假定打分最高的叠合或最喜欢的那个叠合就是正确的,如Figure 1所示:

Forge教程 | 建立Activity Atlas构效关系模型-墨灵格的博客

Figure 1. 分子叠合正确性的评估

二. Activity Atlas分析流程

建立Activity Atlas模型需对数据集有要求:

  1. 化合物的活性值已知,至少覆盖两个数量级区间;
  2. 化合物需要叠合好。

整个流程如图2所示:
Forge教程 | 建立Activity Atlas构效关系模型-墨灵格的博客

Figure 2. Activity Atlas的计算流程

三. 开始Activity Atlas分析

每个Activity Atlas计算实际进行了三种类型的分析:

  • 平均活性(Average of Actives)
  • 活性悬崖(Activity Cliff Summary)
  • 区域探索(Regions explored analysis)

为了进行分析,需要先建立一个3D格点的网格,其覆盖了数据集中所有叠合在一起化合物的全部体积空间。网格中的每个格点、数据集中的每个化合物,分别计算每个Activity Atlas分析的差异系数。

为了计算系数,Forge根据数据集中化合物的活性值分布,自动对每个分子都进行了加权。如果分子的活性低于低活性阈值(比如:活性低于6)则视为没有活性;如果分子的活性高于高活性阈值(比如,活性高于8),该分子则被视为具有完全的活性;如果分子的活性介于低、高阈值之间,则被定义为具有部分活性。每个分子根据活性值给予一个介于0-1之间的线性标度活性权重(比如,如果分子的活性值为7,那么权重为0.5)。

权重还根据数据集中相似性值分布进行计算。如果分子的最高打分叠合相似性低于最低相似性预测(比如,相似性低于0.6),那么该分子的叠合是不可信任的,因此分子权重为0,该分子不再参与后续的分析;如果相似性高于高相似性阈值(比如相似性分值高于0.8),则该分子的叠合时完全可信赖的,因此给予权重1;如果相似性值在两者之间,则按线性标度给予权重。注意:如果打分最高的叠合低于低相似性阈值,那么完全放弃所有的叠合。

除了对每个分子进行加权外,还根据相似性值对每个分子的多个叠合进行加权。打分最高的叠合权重为1,其他的叠合根据与打分最高的叠合比较分值降低情
况而降低权重。最后,进行一个标准化操作,让权重总和等于1。

比如:

  • 一个分子的叠合打分为0.8、0.6、0.5、0.45,在这个情况下,仅使用0.8的叠合,并给予权重1。其它的叠合因为分值低于低的阈值,因此权重为0。
  • 一个分子的叠合打分为0.8、0.799、0.798、0.6,在这个情况下,仅使用前三个叠合,每个叠合的权重分别为1/3。
  • 如果给一个分子设置了偏好的叠合,则该分子仅利用偏好的叠合,并给该叠合设置权重1。

计算完分子与叠合的权重,取两者的乘积用来决定每个叠合对最终模型的贡献。如果只想让每个分子只用一种叠合,那么需要改变Activity Atlas的默认参数设置。在只使用一种叠合的情况下,每个分子仅利用其打分最高的叠合(或设置的偏好叠合)。这意味着你认为打分最佳的叠合或你偏好的叠合是正确的叠合。

四. 在Forge中获取Activity Atlas建模功能

1. 已经导入训练集与测试集数据,从Process按钮开始

创建Activity Atlas模型,点击主工具栏的"Process"按钮(Figure 3)打开processing对话框,然后再Build Moldel下拉菜单中选择"Activity Atlas"。只有训练集分子用来生成模型,但是训练集与测试的化合物都会被Novelty score打分。

Forge教程 | 建立Activity Atlas构效关系模型-墨灵格的博客
Forge教程 | 建立Activity Atlas构效关系模型-墨灵格的博客

Figure 3. Forge Process按钮与Activity Atlas建模

2.从新建项目开始

还可以以新建项目(File>New Project)的方式从项目导航(New Project Wizard)里选择"Build an Activity Model',然后再选择'Activity Atlas', 见Figure 4.

Forge教程 | 建立Activity Atlas构效关系模型-墨灵格的博客
Forge教程 | 建立Activity Atlas构效关系模型-墨灵格的博客

Figure 4. 新建一个Activity Atlas项目

五. Activity Atlas模型结果展示

1. 平均活性分析

如Figure 5所示,该模型通过分子数据集中的活性化合物,然后告诉你:平均活性分子长成什么样子?

Forge教程 | 建立Activity Atlas构效关系模型-墨灵格的博客

Figure 5. Activity Atlas的平均活性分析。该分析揭示了活性分子在静电、疏水与形状上分布的共有特征。

2. 活性悬崖分析总结

Forge教程 | 建立Activity Atlas构效关系模型-墨灵格的博客

Figure 6. Activity Atlas的活性悬崖分析总结。该分析揭示了静电、疏水与形状对活性的影响。

3. 区域探索分析

该分析与平均活性分析有点相似,但是并没有把活性考虑进来:主要是为了评估叠合在一起的化合物,我们已经对其研究了哪些区域?以传统的3D-QSAR比如CoMFA为例,CoMFA的等值图提示静电与立体场对活性的影响,但是没有等值图覆盖的区域并不意味着该区域对活性没有影响。没有等值图覆盖可能有两个原因:1)该区域确实对活性不重要或是没有影响;2)训练集化合物在该部分完全一样,目前还没探索过这一区域。区域探索分析就要去区分这两种情况,如Figure 7所示,区域探索分析告诉我们:哪些区域我们已经从静电、形状以及疏水性角度探索其对活性的影响;哪些区域还没有被探索过。这为探索构效关系提供了分子设计的依据,同时也应当是构效关系的重要组成部分,遗漏会给分子设计指导带来错误决策。

Forge教程 | 建立Activity Atlas构效关系模型-墨灵格的博客

Figure 7. Activity Atlas的区域探索分析。该分析揭示了哪些区域已经被我们用静电、疏水与形状探索过,哪些区域没有。

4. 用Activity Atlas模型计算新颖性打分

区域探索分析可以用来给数据集或新设计的化合物进行新颖性打分(见分子表单的Novelty列):Low、Moderate与Very High。如果化合物的场出现的位置已经被其它多个比如10个分子覆盖,说明这个分子并没有带来新的信息,则新颖性打分值为0,在Novelty列标记为Low;标记为Moderate的分子为数据集带来新的信息;Very High意味着该分子与数据集分子完全不同。

5. 新分子设计与新颖性打分

如果Forge项目里包含有Activity Atlas模型,那么新设计的分子在分子编辑器会显示出新颖性打分值。编辑完分子,点击“Minimize”与“Optimize Alignment”按钮,然后新颖性分类就会展示出来。你因此可以评估相对于训练集化合物新化合物是否代来新的信息。

六. 联系我们,申请试用

试用下载:http://www.cresset-group.com/try-a-free-demo