人工智能设计新药，有泡沫，也有啤酒花

新药研发是一个高投入、高风险、高收益的行业，以至于每次在新技术诞生之后，追求者趋之如骛，如同注射了一剂“强心针”。备受关注的人工智能能否应用于新药研发领域，并带来一场变革？

上周二，来自瑞璞鑫生物科技有限公司李伟博士和北京生命科学研究所黄牛研究员，从人工智能能否理解疾病以及如何应用在新机制和新靶点等方面，探讨人工智能在疾病诊断和新药研发中的应用。本文将继续探讨人工智能在新药研发中的实与虚，它有哪些优势，又有哪些不足？

新药研发的目标是找到可调控机体生物学功能的实体物质，如小分子、大分子或生物活体等。以小分子新药研发为例，从靶点的发现与验证，到先导化合物的发现与优化，再到候选化合物的挑选及开发，最后进入到临床研究，每一个阶段都有多种可用的方法和技术，各自优缺并存，“择其善者而用之”。

但每一阶段的失败率仍高居不下，新方法和新技术如果能有所帮助，自然博人眼球。近年来，人工智能在生物医药研发领域异军突起，目前主要集中于靶点的发现与验证（如何理解疾病）和先导化合物的发现与优化（如何设计药物）。人工智能能否理解疾病，此前笔者的一篇文章“人工智能能否颠覆新药研发”已有详细论述。接下来这篇文章愿与大家聊一聊人工智能在药物设计中的实与虚。

人工智能需基于物理学原理的计算化学方法。

透过现象看本质，药物与靶标的结合是一个自由能驱动的物理学过程，无需任何化合物活性数据的第一性原理计算，无疑是最直接和最精确的方法。然而目前基于物理学原理的计算化学方法的速度和精度，还难以精确描述这样一个分子识别过程，结合自由能计算结果不尽如人意。基于大数据而崛起的人工智能，能填充这样的空白吗？

因为人工智能本身也是计算，所以数据驱动的人工智能与基于物理学原理的计算化学方法或计算机辅助药物分子设计（CADD）千丝万缕斩不断。

从历史的时间线来看，上世纪80年代的CADD，其劈风斩浪之势头丝毫不逊色于当前的人工智能。

1981年10月5日，《财富》杂志就曾以“Next Industrial Revolution: Designing Drugs by Computer at Merck”的标题称赞CADD兴起的革命。

可到了90年代，伴随着高通量筛选和组合化学等新技术的发展（同样经历热捧后跌落的过山车），以及CADD并没有带给制药业期待的革命性进展（虽然在HIV蛋白酶抑制剂等药物的研发的确发挥了重要作用），CADD在药物研发中的地位时常显得尴尬，“他们说这个化合物算出来不错？那我们试试；他们说这个化合物算出来不好？那我们试试”。

从明日之星到明日黄花，不过匆匆十几年的时间，人们并没有那么长的耐心。基于数据训练集的人工智能会让人想起曾经的定量构效关系（QSAR）。定量构效关系受限于算法的直白、数据集的偏向性和过拟合，预测能力无法令人满意。

但近些年来，计算能力的迅猛提高和新的算法发展，对基于物理学原理的计算化学领域的发展有较大的推进作用，有望进入良性循环。与目前已有海量文献显示其实用效果的CADD技术相比，在早期新药研发阶段，人工智能的胜算如何？

相比而言，小分子与靶标的体外相互作用数据（Ki、Kd、IC50等）是较高质量的数据集：相互作用体系简单，数据标识清晰，独立变量少，历史积累的数据量大。如果说人工智能要在新药研发领域真正成为一个工具（tool）而不是一个玩具（toy），预测小分子与蛋白的结合一定是最先的突破点之一。

小分子药物基本上都是通过与体内各种生物大分子进行分子识别和结合来发挥作用（药效动力学）以及被作用（药代动力学），所以如果能够计算结合强弱，那么除了活性预测，药物的吸收、分布、代谢、排泄和毒性（ADMET）以及老药新用等等都可得益。

这也是为什么计算化学家一直在用基于物理学原理的方法，努力地把结合能的计算推动到更加精确，譬如近年来自由能微扰（FEP）在某些生物体系能精确到1 kcal/mol，接近试验测量误差。FEP得益于算法的改进和计算能力的迅猛进展，不过在真实世界的使用中，其速度、精度和广度仍然有急需提升的必要，人工智能能否参与其中加速其进展，是一个非常有意思的问题。

其实神经网络早在上世纪90年底就已运用于定量构效关系的活性预测，因为之前提到的多种原因而暂时搁浅，这几年深度神经网络（DNN）又在这一领域抬起头来。

Merck和多伦多大学合作的发现，与之前的定量构效关系相比，DNN能较好地预测测试集中化合物的活性；基于深度卷积神经网络（DCNN）的Chemception在活性预测方面也表现较好，且无需提供传统定量构效关系所需的分子描述符（疏水常数等理化特征），而是仅仅基于化合物结构式提取相关特征进行学习拟合。虽然前景喜人，但仍有问题需要回答。

传统定量构效关系本已诟病于其拟合的方程对后续理性设计的指导不足，而相比于传统定量构效关系，人工智能的问题在于，黑匣子更“黑”了：其多层神经网络对数据的处理和特征的提取，常以人类理性无法理解的方式进行，这也许是人工智能在真实世界应用的障碍之一。

除了在定量构效关系中用于活性及ADMET预测，人工智能在分子对接（Molecular docking）的打分函数（Scoring function）上也有一定的进展。基于靶标结构的药物设计（SBDD）需要依赖打分函数来预测小分子与蛋白的相互作用强弱及排序。

传统的打分函数主要基于力场（Force field-based）、经验性函数（Empirical-based）和知识（Knowledge-based）。

随着人工智能的兴起，基于人工智能的打分函数也随之而来。目前表现较好的人工智能模型主要是先通过传统的分子对接软件产生大量小分子-蛋白质三维复合物结构作为训练集，深度学习小分子与蛋白相互作用的关键特征，类似于图像的模式识别，获得人工智能打分函数。

基于DCNN的Atomwise开发的AtomNet以及IBM Watson开发的DeepVS基本原理都与上述类似，并且都在虚拟筛选的方法学测试中表现出一些优势。

然而，制约数据驱动的人工智能打分函数的关键是缺乏高质量的蛋白-配体复合物结构及其相应活性的大数据集，尤其是数据库中绝大多数的非活性化合物的结合模式完全依赖于分子对接软件预测的精度，及化学环境是否有足够的多样性、区分度和正确标识等都是值得探讨的问题，而且这种打分函数本身并无合理处理蛋白质柔性的方案，还有小分子活性构象的能量计算，活性口袋水分子的取舍，长程相互作用等影响因素。

需要强调的是，评估任何新计算方法的唯一标准是，是否能成功用于预测新的分子，今后这方面还需要加强数据共享以及同目前通用的分子对接方法进行头对头的比较。

本质上是物理过程的药物和靶标结合，没有理由人工智能应该取代物理，也没有理由物理应该排斥人工智能。从物理学的基本原理来说，量子力学/化学的计算是目前我们可以达到的计算最高精度。然而在真实世界中，精确量化计算在生物体系中的计算量之巨大，是我们无法承担的。

高精度量化计算结合人工智能会是革命性的进展。

2007年，Jorg Behler和Michele Parrinello开创性利用高斯径向函数和高斯角函数作为基组编码原子位置信息，引入神经网络来表征量化计算（DFT）势能面，比DFT的计算要快上好几个数量级（2017年，ANI-1更进一步，使用修改后的2007年Behler和Parrinello的symmetry function建立single-atom atomicenvironment vectors来表征分子），所以深度学习可基于DFT量化计算结果进行训练，学习产生的ANI-1可以计算比训练集所含体系更大的体系，而且和DFT的量化计算准确程度基本一致，但是速度要快得多。

量化计算+人工智能，值得期待。

如何用人工智能进行药物设计与合成。上世纪90年代，全新药物设计（De novo drug design）就已有相关的文献报道，包括人工神经网络的应用。不过受限于分子生长和连接方式、成药性、合成难易及计算资源的问题，全新药物设计能直接成功的案例并不多，多数还是需要药物设计人员在自动生成的分子上进行调整。

药物设计可被认为是一种模式识别，药物化学家对于药物分子结构的识别，对药物分子合成路线的分析以及药物分子的生物学活性分析。人工智能要实现自动化的药物设计，其中一种策略是模拟药物化学家的模式识别过程，包括基于原分子结构的新分子的生成（即化合物库的产生，定向或不定向），新分子与靶标的相互作用的评估和排序（之前提及的打分函数等），以及新分子合成路线的评估（人工智能设计合成路线，后续有讨论）。

如果人工智能能在这三方面有所突破，再加上自动化和高通量的活性测定方法，在某些合适的项目上，人工智能是有可能做到自主设计药物分子的。而且药物设计这一工作，正是人类智力的体现之一，虽然可能人工智能实现的方式不同，但殊途同归。

基于先导化合物分子结构来设计新分子，对药物设计人员而言，通常是每次设计几个、十几个或者几十个新化合物，但是对于人工智能而言，涉及到一个化合物虚拟库的产生及其化合物多样性。

化合物结构的多样性一直是新药研发的重要源头，当年追捧的组合化学，和现如今加了标签的DNA编码库（DEL），都是新药研发人员为增加化合物多样性做出的尝试和努力。据化学家预测有1060的drug-like化合物可以被合成。

伯尔尼大学的Reymond创造的Generated DataBase（GDB），从2006年的GDB-11包含2640万个虚拟的最多11个原子的化合物，到2012年的GDB-17包含1660亿个虚拟的最多17个原子的化合物，涵盖着广阔的成药空间。对人工智能而言，化合物数据标识清晰，适合深度神经网络的学习。

循环神经网络（RNN）能够接受序列数据作为输入特征，之前是用于自然语言处理领域，但如今在产生新化合物结构方面效果显著。

AstraZeneca的研究人员以常见的SMILES字符串格式表征化合物，RNN首先通过类似学习语言的方式学习大量的SMILES文本是如何表征分子，由此拟合出的模型可以生成全新的SMILES字符串，即全新的分子且无偏向性，适用于虚拟筛选等各种用途；其次再基于迁移学习，将之前训练出的模型用某个针对性靶点的小分子数据集进行再度训练，而且这个小分子数据集无需大量的数据；然后这个微调后的人工智能模型，在针对两种病原菌的药物设计中，产生的分子与真实世界中药物化学家设计的化合物能有部分重合。

但仍有问题需要回答。首先，人工智能所产生的化合物，与药物化学家所认可的符合药化规则的化合物，差异有多大？如果都是成药性差（如化学不稳定）的分子，也没有继续优化和开发的价值。其次，人工智能所产生的化合物库自身内部的多样性，目前发表的人工智能工作并没有很好的探究，至少得比得上GDB-17的吧。努力扩展化学空间，从中寻找沧海遗珠，仍然是人类及人工智能所应追寻的重要目标。

另一个方向则是人工智能在有机合成领域的进展。化学体系比生物体系简单，并且当前可供人工智能学习的化学反应的数量巨大。目前合成路线的设计依赖于化学家的经验和知识，最常用的策略是E. J. Corey提出的逆向合成。不过最近IBM开始研究通过学习海量的专利及文献中的化学反应来预测化学反应，将人工智能在语言分析中的算法转移到对化学反应的解构上，从而把预测化学反应的问题转变为语言翻译的问题。

不过该方法只报道了准确度（在测试集上为80.1%，如果噪音更大，准确度还会进一步降低），并没有常见的用于评测新方法的特异性和敏感度，在真实世界中的实用性上可能需要打折扣。

2018年，Segler等人也在Nature发表了相关的工作，采用深度学习结合蒙特卡洛算法，通过学习大量已经被多次验证过的化学反应后，即可像人类一样采用逆向合成的策略来设计合成路线，挑选出合适的起始原料。

更重要的是，他们还展示了该人工智能方法比目前常用的计算机辅助合成路线设计方法要高效，而且在双盲测试中得到研究生水平化学人员的肯定。除去特别罕见和复杂的分子，如果大部分普通的化合物能通过人工智能设计出成功率较高的合成路线，那的确是实质性的进展。

即使该人工智能与优秀的有机化学家相比有差距，但药物设计人员仍然可以利用该人工智能软件快速初步评估化合物的合成难易程度，将精力集中到可行性更大的化合物上，与有机合成人员的合作变得更加高效。

新药研发的产品是药物，而药物保护其商业价值的方式是通过专利。专利保护和破解，有时像两位高手过招，胜负常在不经意间。

药物专利，尤其是最核心的化合物专利，文本结构化，化合物的保护空间和层次都比较严谨，如果人工智能能通过比较学习海量的首创型新药（First-In-Class）的化合物专利与模仿创新（Me-too / Me-better）的化合物专利之间化学结构的变化模式，寻找到至少纯化学空间（不讨论简单修饰导致意想不到的效果的情况）上的专利保护方式和突破方式，其实也是以另一种方式实现了学习药物设计，不过目前暂无研究报道。

最后，仍然需要问的问题是，药物设计已有多年历史，从完全的人脑设计，到目前常用的CADD手段和技术，文献报道的成功案例多如牛毛。刚刚起步的基于人工智能的全新药物设计，能在多大程度上PK人类优秀的药物设计家和现有的CADD技术？即使人工智能能自动化生成化合物结构、预测活性、设计合成路线，但评估分子好坏仍然是一个问题。

因为除了活性，药物分子还需要综合考虑药代动力学和毒性等各方面的性质，有些标准并不完全清晰，不同药物化学家对同一分子的评价也常常存在分歧，挑选临床前候选化合物时并无放之四海皆准的规则可以利用。这方面如何教好人工智能？仍然任重道远。

虚与实：读书百遍，其义自见？目前的人工智能高度依赖于高质量有标识的大数据，这就要求数据点是清晰的，同时是低成本的。

人工智能作为分析数据，提出假说的工具，最受欢迎的领域应该是缺乏假说，但又是验证假说的成本低的领域。似乎新药研发的曲调与当前人工智能的气质搭配并不那么融洽，尤其是体内生物学相关的工作，比如新靶点的验证耗时耗力，而验证体外活性和化学合成的预测可行性更大一些。

不过人工智能仍然在进化，在CNN领域做出重要贡献的Yann LeCun，认为虽然目前的人工智能的成就大都依赖于监督学习，但是人工智能应该发展的方向是不依靠大数据的非监督学习，因为非监督学习更像是人类学习的方式；这与UCLA的朱松纯教授提出的“小数据、大任务范式（Small data for bigtasks）”，即不是用大量数据，而是用大量任务来训练人工智能（浅谈人工智能：现状、任务、构架与统一|正本清源《视觉求索》）有异曲同工之妙。

简单来看，新药研发人员，并不需要学习他人无数的项目之后，才能学会做新的项目（否则早就被开掉了）；James Black（诺贝尔奖获得者，提出理性药物设计）在折腾西咪替丁和BruceRoth（药物化学家，世界最畅销药Lipitor的发明人）在摆弄阿托伐他汀时，也并没有身经百战；而目前的人工智能需要学习多少项目才能成为Vagelos（Merck前总裁，公认的医药界领袖）。

新药研发历来输多胜少，失败的原因涵盖每个环节。倘若人工智能去学习新药研发的所有案例，也许得出的模型是把药厂统统关门大吉。

新药研发路途艰险，真实世界中更是状况不断，难以预测，即使财大气粗，仍苦不堪言。大海行舟，茫茫无岸，任何新技术的诞生，都是对疲倦不堪的工业界的一剂强心针。对于新技术，我们追捧的是未来，但我们消费的也是未来。追逐热点永远是落后于热点。云计算、大数据和人工智能都已经热了一圈，现在区块链正当火热，也许不久的将来，我们还能看到“区块链技术颠覆新药研发”的投资新闻。

新药研发圈也是江湖，江湖总有虚虚实实，真真假假，大佬未必可靠，草莽亦有英雄。欺山赶海，披星追月，追逐新药永远在路上。头顶的星辰和脚踏的实地，缺一不可。披荆斩棘，需要的是一把好刀，好用即可，好看那是锦上添花。人工智能不是戈多，人工智能是实实在在正在我们身边兴起的事物。人工智能有很多优势，但也有很多不足，我们能做的，就是：仰望星空、脚踏实地，不忘初心、砥砺前行。