大语言模型重塑计算药物设计：在于代码而不是药物

摘要：当我们谈论AI在药物研发中的作用时，总被“AI从零开始设计新药”的科幻故事吸引——仿佛一个超级智能系统取代了整个实验室。这很酷，也很上头。Ash对此有不同的见解，他认为现实是：真正正在改变游戏规则的，不是AI在“发现”药物，而是它在默默“编写代码”，让计算化学真正跑起来。

原文：Ash Jogalekar. 2025-09-24. Code, not Drugs: The LLM Revolution in Computational Drug Design. Available at: https://www.linkedin.com/pulse/code-drugs-llm-revolution-computational-drug-design-ash-jogalekar-rdmqc
编译：肖高铿

“科学的进步依赖于新技术、新发现和新思想，可能就是这个顺序。” -悉尼·布伦纳

当人们谈论药物发现中的人工智能时，对话几乎总是跳到戏剧性的可能性：能够从头设计药物的算法，或取代整个实验室的超级智能系统。这是激发想象力和新闻稿的故事。但它也分散了我们的注意力。现在实际发生的情况更安静，不那么引人注目，但在许多方面更具变革性。不是人工智能在发现药物。而是人工智能在编写代码，使计算化学能够工作。

我认为领域外的大多数人并没有意识到这是多么重要的事情。计算化学的瓶颈从来都不在理论方法上。我们有很多工具 – RDKit、AutoDock、OpenMM、Open Babel等等。其中大多数在处理该领域的主力任务方面做得相当不错：分子对接、分子动力学、相似性搜索、骨架跃迁。问题在于让它们工作，特别是协同工作。直到现在，安装和调试这些包足以让专家们抓狂。依赖关系破裂、API变化、编译器和文件格式冲突、操作系统阻碍。试图让一个程序与另一个程序通信可能会耗费数小时，如果你是新手，很可能会直接放弃。有了像ChatGPT和Claude这样的大型语言模型，情况不再如此。安装这个曾经足以让你泪流满面的挑战，现在你可以在半小时内完成。这些模型诊断依赖问题，建议修复方法，尝试替代版本，并修补那些可能使过程脱轨的怪癖。曾经感觉像堑壕战的事情现在感觉像是战场上的动力飞行。

文件格式也发生了同样的转变。每个工具要么需要自己的格式，要么将现有文件转换为自己的格式。有一个老笑话，讲的是在一次会议上，科学家们决定消除现有的十种文件格式，用”统治一切的格式”取而代之。结果呢？他们现在有了十一种文件格式。计算化学中真正令人沮丧的大多数不是深奥的理论难题 – 而是诸如不匹配的键级、缺失的电荷，或者某些解析器无法读取的包含额外行的PDB文件（参数化曾经是另一个问题，尽管现代力场大多已经解决了这个问题）。这些问题很小但持续不断，是那种耗尽动力的事情，因为修复它们感觉像看着油漆干燥。现在你只需将有问题的文件粘贴到ChatGPT或Claude中，它们就会告诉你确切的问题所在以及如何修复。你几乎可以听到那些花费数天追踪这些微小、无形错误的人们的集体松了一口气声。

真正开始感觉神奇的地方在于构建流程。在过去，即使设置一个适度的工作流程 – 比如说，生成类似物、对接它们、运行一轮MD最小化、按属性过滤、重新对接和重新排序 – 也是一个严肃的项目，相当于一次性格测试。你必须在程序之间传递文件，编写小脚本来转换格式，检查每个输入和输出，确保版本匹配，并不断干预以防止事情崩溃。这足够繁琐，以至于大多数人除非必要都避免这样做。但有了这些工具，你可以用简单的英语描述工作流程。”取这个分子，枚举一组具有这些属性约束的类似物，对接到这个蛋白质中，用MD最小化，按这些标准过滤，在更严格的条件下重新对接，然后从这个构建块库生成聚焦的类似物并重新排序。”然后就会出现一个可以完成所有这些工作的可用脚本，有时长达数百行。通常它唯一需要的输入是一个配体文件或PDB。脚本处理其余部分：调用RDKit或Open Babel或任何其他依赖项，如果一个工具失败则用不同的工具重试，如果存在兼容性问题则下载新版本，运行分析并整合结果。在过去的几个月里，我创建了数十个这样的流程，有时感觉就像我刚刚背上了喷气背包。

而且可能性的范围正在扩大。想象一下，从一个包含数千个配体的库开始：LLM可以设置一个流程，将它们转换为3D构象，对接到蛋白质中，按对接分数筛选出前1-2%，然后通过OpenMM中的短MD模拟计算自由能。最后你得到一个整洁的CSV文件，按对接和ΔG对化合物进行排序。或者假设你想进行骨架跃迁：从一个已知的先导化合物开始，用RDKit生成匹配的分子对，按药物相似性过滤结果，通过ADMET预测器运行它们，保留有希望的，然后对接它们并挑选最好的。一个曾经意味着处理五种不同格式和无尽调试的过程现在只需一个脚本就能运行。甚至更专业的流程，如共价和抗体对接（感谢像AlphaFold这样的工具）也触手可及。这些工作流程过去只有经验丰富、有大量时间和耐心的计算化学家才能管理。现在几乎任何人都可以使用。结果将需要基于化学直觉的同样仔细审查和分析，这是计算化学工具一直需要的，但获取这些结果的速度和便利性刚刚达到了曲速。

当然，这些工具并不完美。ChatGPT有时会陷入循环；Claude虽然较慢，但更擅长调试，而且它的脚本更长。两种工具有时会犯基本错误，比如沿错误轴对齐。两者都不能在第一次尝试时就完全正确；你通常需要迭代，可能删除一行或调整参数。偶尔，特定工具可能会考验你一两天的耐心。一些复杂的协议仍然是常见的失败点。人工干预总是重要的。但关键是迭代是微不足道的。大多数时候，你只需将错误消息粘贴回去，修复方案就出来了。过去曾经是一个严重障碍的事情现在几乎是你不会考虑的。与之前相比的质性变化怎么强调都不为过。

我不是那种对每一项新技术都感到兴奋的人。我见得多了，看到过许多”革命”平稳地成为有用的普通工具；分子对接、结合水分析、分子动力学、蛋白质折叠，是的，还有大量的人工智能炒作。但在这里，我毫不犹豫地说：当涉及到进行计算化学的过程时，这些模型是革命性的。它们像无人能及一样压缩时间。它们将小时，有时是周，变成分钟。它们消除了动力障碍，这通常是使用开源工具的真正障碍。问题从来不是这些工具不准确，而是它们脆弱、挑剔，设置起来令人筋疲力尽。现在，一夜之间，这个问题消失了。计算化学家应该专注于化学，而不是计算带来的障碍。这些工具终于使这成为可能。

这的后果难以预测，但它们将是真实的。像Knime和Pipeline Pilot这样围绕简化流程构建的工具将不得不适应。它们还没有过时，因为它们的图形用户界面仍然使它们具有吸引力，但它们的基础已经发生了变化。更重要的是，计算化学家自身的角色将发生变化。曾经占用初级化学信息学家或内部开发人员的大部分工作 – 无休止的脚本编写、文件转换、流程构建 – 现在可以由LLM完成。这些角色不会消失，但会演变。专家将需要提升层次，找到这些工具留下的空白并用独特的专业知识填补它们。将会有裁员、新招聘和不可预测的命运起伏。虽然普通科学家将从这些工具中大大受益，但如果专家能够节省数小时和数天的编码时间，不使用它们也是愚蠢的。

还有另一个人们忽视的影响：这将使开源工具更具吸引力。在一个注重成本的公司 – 特别是初创公司 – 已经不愿意购买昂贵商业软件包的世界里，突然间开源的主要障碍不再是准确性或功能，而是可用性。如果LLM使安装、配置和流程化这些工具变得无缝，采用率将激增。而且不仅仅是采用：还有开发。当使用开源工具的障碍消失时，更多的人使用它们，更多的人贡献，新项目出现。我们可能会看到一波新的开源努力，如OpenADMET，这在以前是不可能启动的。从这个意义上说，LLM不仅使现有工具更易用。它们重新激发了计算机辅助药物设计整个开源生态系统的活力。这是一个巨大的整体胜利。

这就是为什么在谈论药物发现的新技术时我总是回到这一点：不要错过你面前的东西。关于人工智能发现药物的炒作可能会也可能不会像人们希望的那样实现。但静悄悄的革命已经到来。在计算化学中，LLM不仅仅是”有用”。它们已经改变了格局。在将小时或周缩短到分钟的时间节省中，在它们处理依赖关系的方式中，在它们为专家和普通用户消除动力障碍的方式中，这些工具是惊人的。它们让我们能够进入药物发现的实际业务。采用它们将是明智的。