摘要:为庆祝2020年JCIM创刊60周年推出虚拟专刊,遴选出过去60年间在药物设计和化学信息学领域最具影响力的10篇论文,包括了化学信息学中广泛使用的SMILES语言、ZINC数据库、以及OMEGA与Ligandscout软件等。我国学者收获颇丰,上海华东理工大学唐赟教授开发的admetSAR入选免费工具类最高引,浙江大学侯廷军教授关于MM/PBSA与MM/GBSA的比较等文章入选方法比较类最高引。

原文:Nunes-Alves, A.; Mazzolari, A.; Merz, K. M. What Makes a Paper Be Highly Cited? 60 Years of the Journal of Chemical Information and Modeling. J. Chem. Inf. Model. 2020, 60 (12), 5866–5867. DOI:10.1021/acs.jcim.0c01248.
编译:肖高铿/2020-01-19

关于JCIM创刊60周年庆推出虚拟期刊

2020年,化学信息学与建模主流期刊Journal of Chemical Information and Modeling(JCIM)庆祝创刊60周年。多年来,这本由美国化学学会(American Chemical Society)出版的同行评审期刊与化学、生物学和计算机科学等新兴领域的诞生和发展一路同行。随着新学科的发展,刊名也历经三次变更:创刊于1961年,名为Journal of Chemical Documentation(JDC);在1975年更名为Journal of Chemical Information and Computer Sciences(JCICS);在2005年,采用了当前名称。自第一版诞生以来,便作为核心期刊脱颖而出,涵盖了计算化学的各个领域。JCICS/JCIM与科学界共享了许多最有影响力的发现,这些发现标志着化学信息学的里程碑。本篇社论为庆祝JCIM在计算化学领域的重要性,精选了11篇过去六十年来被引用次数最多的论文。这些论文是由JCIM早期职业委员会成员遴选而来,作为庆祝JCIM周年的虚拟期刊。内容涵盖了从1988年到2015年这一重要时间段、由不同国家(例如美国,中国,奥地利和英国)研究人员撰写的。接下来,我们简要地介绍这些文章并分析其成功背后的原因。

免费数据库

在大数据时代,基因测序和高通量分析等实验会产生大量信息,因此有条理地收集数据很有用。数据库非常适合于此目的。它们对于以全面的方式存储信息非常重要,并且还有助于构建数据集以进行数据挖掘和训练计算方法。用于训练的数据的准确性对所获得的模型有巨大的影响,因为模型不会比数据本身更好[1]。在本虚拟期刊中,我们发现了四篇与免费数据库相关的论文[2-5]。其中三篇与ZINC[2-4]有关,ZINC是由John Irwin和Brian Shoichet在2005年创建的用于虚拟筛选市售化合物的数据库。它包含了7.5多亿亿注释了性质的小分子,例如分子量和LogP,以及准备好用于对接的结构。文献[2]是迄今为止JCIM中引用次数最多的论文,被引用了3200多次,这表明ZINC的使用范围非常广泛。另一篇论文描述了admetSAR[5],这是一个由Yun Tang及其同事创建的数据库。它收集了有关小分子吸收、分布、代谢、排泄和毒性(ADMET)的文献数据。这些数据库是进行理性药物设计的宝贵工具。

免费工具

免费的工具对于公司和(尤其是)学术界加快研究速度至关重要。主要优点是减少了项目成本,比之封闭模型,免费工具部署的约束更少,加速了项目的开发。如最近的观点所指出的那样,开源代码的另一个优势是可以由社区的其他成员来维护并改进代码[6]。2012年,两个知名的免费工具发表在JCIM上,不断受到高度引用[5,7,8]。 第一个是关于分子特征的预测。它就是admetSAR[5],它不仅是个ADMET数据的数据库,还包含了一个预测新分子药代动力学特性的模型。代谢预测在减少药物发现过程中的损耗中起着至关重要的作用,可以利用这一有用的工具将涉及潜在活性分子的药物设计研究与其ADMET特性的预测快速整合。第二个成功的免费工具与用于计算机辅助药物设计的分子力学相关。Alexander MacKerell及其同事开发了一个服务器,用于自动小分子参数化的Web服务器[7,8]。它可以用来生成CHARMM通用力场(CGenFF)模型,该模型是用于生物分子系统CHARMM力场相对应的用于类药分子的力场。由于它快速且易于使用,因此有助于精确地进行基于分子动力学的研究。

药物设计工具

计算方法是理性药物设计的有用工具。例如,它们可以识别重要的配体与蛋白之间的相互作用,从而提高亲和力,或者可以用于预测诸如毒性或吸收之类的特性。但是,这些方法还远远不够完善,通常需要数轮的预测和实验迭代得以优化。除了上面已经提到的免费数据库和工具之外,两篇受到高度引用的论文是关于理性药物设计工具[9,10]。其中一种工具是Ligandscout[9],由Gerhard Wolber和Thierry Langer开发,用于创建药效团模型以便用于虚拟筛选。通过对蛋白数据库中的蛋白-配体复合物进行数据挖掘来获得检测相互作用以生成模型的规则。另一个工具是OMEGA[10],由Paul Hawkins及其同事创建,用于生成小分子的构象。Omega已经用PDB和Cambridge Structural Database中的小分子结构进行过验证。对小分子进行构象穷举以及精确药效团建模仍然是药物发现中的艰巨任务。

方法比较

不同方法的比较对于了解每种方法的优缺点以及在特定情况下推荐最适合的工具是极具价值的。本期虚拟期刊中的两篇论文与方法比较相关[11,12]。侯廷军及其同事在其中一篇中比较了MM/PBSA和MM/GBSA在预测59种配体-蛋白复合物的相对和绝对结合自由能的性能[11]。作者还评估了其他因素对预测的影响,例如模拟长度和溶质介电常数。在另一篇论文中,Peter Willett及其同事回顾了化学数据库中的相似性搜索方法[12]。该文展示了量化分子相似性以及表征分子结构的方法,最后还比较不同的相似性搜索方法。保留结构信息以促进相似性搜索的高效分子表征方法仍然是计算化学中一个有趣的研究主题。

创新思想

最后,表示信息的新想法可能对该领域产生长期影响。在本期虚拟期刊中被突出强调的论文之一是David Weininger创建的SMILES。SMILES是一种化学语言,它使用线性字符串和符号来表示小分子[13]。如今,它的使用非常广泛,该领域的每篇论文 处理小分子的化学计算通常使用SMILES描述它们,以确保透明性和可重复性。参考文献[13]是1988年出版的,是本期虚拟期刊中最古老的论文,也是JCICS引用最多的论文,多达3000多次。

在未来几年中,被广泛引用的论文将是什么样?

在未来几年中,被广泛引用的论文将是什么样? 过去的一些趋势将继续存在。 鉴于机器学习和非线性拟合方法的广泛使用,描述已经标注好的、高质量数据的免费数据库的论文将继续被大量引用。 描述药物设计免费工具的论文仍将继续流行,尤其是那些应对尚未得到解决的、具有挑战性难题的论文,例如预测蛋白质口袋中水的结合位置、共价对接以及设计新的可合成分子。此外,随着GPU、TPU、云计算和量子计算等计算技术的广泛使用,我们预计那些旨在提高这些新技术性能的计算化学方法与算法的论文也会被高引。

本社论中表达的观点只是作者的观点,不一定是ACS的观点。

文献

  1. Fourches, D.; Muratov, E.; Tropsha, A. Trust, but Verify II: A Practical Guide to Chemogenomics Data Curation. J. Chem. Inf. Model. 2016, 56 (7), 1243– 1252, DOI: 10.1021/acs.jcim.6b00129
  2. Irwin, J. J.; Shoichet, B. K. ZINC – A Free Database of Commercially Available Compounds for Virtual Screening. J. Chem. Inf. Model. 2005, 45 (1), 177– 182, DOI: 10.1021/ci049714+
  3. Irwin, J. J.; Sterling, T.; Mysinger, M. M.; Bolstad, E. S.; Coleman, R. G. ZINC: A Free Tool to Discover Chemistry for Biology. J. Chem. Inf. Model. 2012, 52 (7), 1757– 1768, DOI: 10.1021/ci3001277
  4. Sterling, T.; Irwin, J. J. ZINC 15 – Ligand Discovery for Everyone. J. Chem. Inf. Model. 2015, 55 (11), 2324– 2337, DOI: 10.1021/acs.jcim.5b00559
  5. Cheng, F.; Li, W.; Zhou, Y.; Shen, J.; Wu, Z.; Liu, G.; Lee, P. W.; Tang, Y. AdmetSAR: A Comprehensive Source and Free Tool for Assessment of Chemical ADMET Properties. J. Chem. Inf. Model. 2012, 52 (11), 3099– 3105, DOI: 10.1021/ci300367a
  6. Walters, W. P. Code Sharing in the Open Science Era. J. Chem. Inf. Model. 2020, 60 (10), 4417– 4420, DOI: 10.1021/acs.jcim.0c01000
  7. Vanommeslaeghe, K.; MacKerell, A. D. Automation of the CHARMM General Force Field (CGenFF) I: Bond Perception and Atom Typing. J. Chem. Inf. Model. 2012, 52 (12), 3144– 3154, DOI: 10.1021/ci300363c
  8. Vanommeslaeghe, K.; Raman, E. P.; MacKerell, A. D. Automation of the CHARMM General Force Field (CGenFF) II: Assignment of Bonded Parameters and Partial Atomic Charges. J. Chem. Inf. Model. 2012, 52 (12), 3155– 3168, DOI:
    10.1021/ci3003649
  9. Wolber, G.; Langer, T. LigandScout:  3-D Pharmacophores Derived from Protein-Bound Ligands and Their Use as Virtual Screening Filters. J. Chem. Inf. Model. 2005, 45 (1), 160– 169, DOI: 10.1021/ci049885e
  10. Hawkins, P. C. D.; Skillman, A. G.; Warren, G. L.; Ellingson, B. A.; Stahl, M. T. Conformer Generation with OMEGA: Algorithm and Validation Using High Quality Structures from the Protein Databank and Cambridge Structural Database. J. Chem. Inf. Model. 2010, 50 (4), 572– 584, DOI: 10.1021/ci100031x
  11. Hou, T.; Wang, J.; Li, Y.; Wang, W. Assessing the Performance of the MM/PBSA and MM/GBSA Methods. 1. The Accuracy of Binding Free Energy Calculations Based on Molecular Dynamics Simulations. J. Chem. Inf. Model. 2011, 51 (1), 69– 82, DOI: 10.1021/ci100275a
  12. Willett, P.; Barnard, J. M.; Downs, G. M. Chemical Similarity Searching. J. Chem. Inf. Comput. Sci. 1998, 38 (6), 983– 996, DOI: 10.1021/ci9800211
  13. Weininger, D. SMILES, a Chemical Language and Information System. 1. Introduction to Methodology and Encoding Rules. J. Chem. Inf. Model. 1988, 28 (1), 31– 36, DOI: 10.1021/ci00057a005