克服药物发现与开发的关键挑战—

摘要：本文讨论了AI技术在预测药物ADMET特性中的应用与挑战。ADMET特性对药物成功至关重要，但准确预测困难重重。传统方法依赖昂贵的实验，而AI提供了一种高效率的替代方案。深度学习和大型语言模型（LLM）能够处理复杂数据集，提高预测准确性。尽管如此，数据质量和模型可解释性仍是关键问题。文章提出通过“联盟”方法共享数据，结合多模态数据源，以增强模型的准确性和可解释性。随着人工智能的不断发展，在药物发现中的应用将继续增长，特别是关于ADMET性质的准确预测，并为我们如何开发疾病治疗的未来提供令人兴奋的前景。

原文：Robert Scoffin. Overcoming key challenges in drug discovery and development: ADMET prediction with AI techniques.
编译：肖高铿

前言

将新药推向市场是一个充满挑战和障碍的复杂旅程。一个关键的方面是了解和优化活性化合物的ADMET特性：其吸收、分布、代谢、排泄和毒性，所有这些都是决定候选药物成败的关键。

在后期开发阶段，药物开发人员将通过实验确定化合物的ADMET特性。这通常是一项耗时且昂贵的任务。因此，通过指导早期发现和初期开发工作，ADMET性质预测在获得更好的候选药物方面变得越来越重要。

然而，准确预测ADMET特性具有挑战性，其中的障碍包括潜在生物过程的复杂性，准确一致的数据集的收集以及固有非线性关系的建模。

在本文中，Cresset董事长兼首席执行官Robert Scoffin博士探讨了预测ADMET属性的固有困难。他回顾了可用解决方案的前景，并深入了解了如何通过应用现代机器学习（ML）和人工智能（AI）技术来发展这一领域。

活性与可开发性

鉴于药物必须具有针对所需靶标的活性，并且在理想情况下对该特定生物实体或通路表现出高水平的选择性。然而，任何一个化合物从候选药物到药物的成功很大程度上取决于活性之外的其它性之。相反，成功更多地依赖于该化合物与所有生物通路的更广泛的相互作用。

化合物的“ADME”性质决定了其在人体内的行为，而“T”决定其安全性和耐受性。因此，了解药物如何被吸收、分布、代谢和消除，以及评估其潜在的毒性，对于优化其有效性和安全性至关重要。

优化化合物的药物代谢药代动力学（DMPK）和ADMET特征通常是药物开发后期的目标。尽管能够在后期阶段可以看到DMPK和ADMET特征显著的增强，但在早期阶段生成具有适当特性的分子以增加成功的可能性至关重要。

评估ADMET特性的传统方法涉及体外和体内实验。这不仅耗时，而且成本高昂，有时在伦理道德上也具有挑战性。因此，人们开始广泛采用计算机预测工具等替代的技术。

尽管自20世纪70年代以来，人们已经在药物开发中使用计算模型，但仍需要不断改进和审查用于ADMET性质预测的方法。药物开发人员在使用计算ADMET模型时需要克服许多困难，包括收集已知且质量一致的数据集以及测量这种复杂性质所涉及的固有噪音。

传统上，ADMET预测方法侧重于从不同来源收集数据，然后建立定量结构-活性关系（QSAR）模型。这些通常将化合物结构与一组测量参数一起作为输入，输出是目标属性的预测模型。

高级别与低级别性质

术语“ADMET性质”涵盖了各种各样广泛的终点，从分子本身的物理化学性质到复杂的生物应答，以及两者之间的所有点。

由于底层生物系统和过程的复杂性决定了许多ADMET性质，成功的方法依赖于将建模分为低级别和高级别性质。然后可以使用多层次或系统生物学方法将几个低级别的性质组合到一个高级别结果的模型中。

对于低级别性质，化合物结构和性质之间通常可能存在简单的线性关系，例如，logP与分子量（MW）的关系图往往与低MW有一定的线性关系，从而导致低MW低logP，反之亦然。

统计建模技术通常假设结构和性质之间存在线性或至少平滑和连续的关系，因此很难对这些终点进行建模。有各种非线性统计方法用来解决这个问题，但结果参差不齐，预测仍然很嘈杂。

AI作为游戏规则的改变者

现代人工智能技术（AI techniques）有望彻底改变ADMET性质建模的方式，以及此类模型输出的准确性。人工智能应用的关键领域包括：

收集更大的数据集
处理质量不一致的数据
确定和建模数据集中的复杂关系

Siramshetty，Xu和Shah等人最近发表了一篇综述¹，研究了用于ADMET建模的AI应用的黄金标准，深入概述了可用数据，建模方法以及最近在提高AI模型预测能力方面取得成功的例子。

人工智能技术有多种方法可用于ADMET预测，包括：

深度学习

神经网络是人工智能的一个子集，特别是深度学习模型，擅长分析复杂的数据集。这些模型可以理解分子结构及其关系，从而促进更准确的ADMET预测。通常，这些技术需要大量数据，有了足够的训练信息，神经网络可以识别数据中的模式，并了解结构表示与复杂生物学终点之间的关系。

大型语言模型（LLM）

LLM的例子包括Google的Bard和OpenAI的ChatGPT 4。它们在与深度学习神经网络略有不同的背景下很有用，因为它们最适合用于将数据收集到一起，以便使用其他技术进行建模。LLM使用自然语言处理在超大数据集上进行训练，然后也可以使用自然语言进行查询。

挑战和未来展望

尽管AI驱动的ADMET预测具有巨大的前景，但仍存在持续的挑战。虽然人工智能工具可以处理噪音较大的数据集，但数据可用性和质量仍然是障碍，因为稳健的模型仍然需要全面可靠的数据集。

此外，人工智能模型在制药行业决策中的可解释性和透明度一直是人们关注的问题。透明度通常表现为对人工智能模型的“黑匣子”性质的担忧，这意味着建立和发布模型和预测需要强大的验证和质量控制。

解决其中一些数据挑战的一种方法是建立“联盟”方法（consortium approach），将化合物“捐赠”到数据集中，并通过一致的实验方法流程来确定ADMET终点。这些数据将提供一系列高质量的核心信息，随后这些信息可以与公共数据以及内部专有化合物相结合，形成开发更好的“全局”和/或“局部”模型的基础。此外，整合多模态数据源，例如大规模的“组学信息”，并增强模型的可解释性，可以进一步帮助改进ADMET预测。

结论

人工智能技术与制药科学的结合开启了药物发现和开发的新时代，各个方面都取得了进步。这些预测工具不仅加快了药物发现过程，而且提高了其效率和成本效益，同时努力提高对患者的安全性和有效性。随着人工智能的不断发展，在药物发现中的应用，特别是关于ADMET性质的准确预测，将继续增长，并为我们如何开发疾病治疗的未来提供令人兴奋的前景。