4月19日,上海浦东,博雅酒店,一场激烈厮杀落下最终句点。历时89天,1,150位选手,735种结果,来自北京大学和北京某科技公司的MDL团队冲破重围,一举夺魁,「默克」逆合成反应预测大赛落下帷幕。作为国内鲜有的生命科学与人工智能的跨领域大赛,「默克」逆合成反应预测大赛吸引了各大高校企业的精尖人才,为这两个领域之间的结合打开了一扇窗。
经过层层角逐,最终6支团队晋级决赛,路演当天更是热闹非常,大赛邀请了5位重量级评委、数十名大众评委和多位媒体老师们亲临现场,见证冠亚季军的诞生。大赛排名由5位重量级评审根据现场路演展示共同商议得出,他们用专业的目光给出了最佳答案。
默克生命科学数据科学家邹传新表示:本次大赛是默克结合自身业务,以开放的姿态与国内顶尖高校、企业的人才共同探索AI在化学领域的应用。
大赛涌现了很多优秀作品,我们共同见证了AI前沿技术在化学合成分析上展现出的巨大潜力,也更加期待AI+Chemistry技术能在未来更好地融合。默克生命科学科研解决方案市场部产品经理杨微娜表示:默克生命科学的Synthia可以被认为是在模仿人类化学家的思维模式工作,而且这个化学家的脑容量非常大,但目前尚不具备自我学习能力,无法发现新的有机反应。
如果可以结合AI的深度自我学习能力,相信未来可以为更多目标分子提供更多的创新型策略。
一等奖由来自北京大学「分子设计实验室」和北京望石智慧科技有限公司的MDL团队摘得,成员的背景涵盖化学、化学信息学、药物信息学与计算机。他们的作品基于深度学习模型DeepRetroReact,直接来预测反应物,并基于反应规则来预测可能的候选反应物,再对生成的反应物进行打分,设计策略选取最佳的反应物组合。
团队采用机器翻译的Transformer模型作为核心架构,根据product和reagent为每个反应加上反应类型标签,并加入了atom的信息,确保得到的结果在化学形式上更加合理。
二等奖由来自中国科学院上海药物研究所药物发现与设计中心的DDDC团队摘得。团队成员长期致力于探索机器学习与人工智能前沿技术在药物设计方法学及计算机辅助药物设计中的应用。
DDDC团队使用了图卷积神经网络,将反应条件作为信息引入模型指导逆合成预测,使每个原子的特征编码存有周围环境的信息,之后对每一种反应试剂组合进行了可训练的特征编码,再将原子对中两个原子的特征及反应试剂特征整合在一起,对每一种可能的原子对变化的概率进行预测,进而预测出反应物。
三等奖由杨lab的六学小分队团队和Fudan-Panacea团队共同摘得。
杨lab的六学小分队成员来自中山大学,具备信息技术与科学和生物统计背景;Fudan-Panacea团队成员来自复旦大学,具备计算机科学与技术和药物化学背景。
杨lab的六学小分队的方案首先对数据进行了标准化,转化成SMILES格式,再构建字典,得到分子向量;在算法模型方面,他们选择了基于Attention的Encoder-Decoder模型,增加了Attention机制,以期在预测过程中更好地注意到化合物分隔符「.」的存在,得到更多的正确的化合物个数。
Fudan-Panacea团队设计了基于Seq2Seq模型的逆合成反应预测算法,它以Seq2Seq模型为基础,结合了数据处理、数据编码以及结果改善等方面的功能创新。该团队也使用了Attention机制,增强模型的精度;同时采用原子编码的方式,提高训练速度,并使用teacher forcing技术对模型进行训练,有效加速了Seq2Seq模型的收敛速度。
回溯远古时代,人类便已经开始摸索生命、探索自我。干细胞治疗、基因组疗法、精准医疗等近年来兴起的新技术,让人类对生命科学的发展有了新的认识,但它与人工智能的结合依然路漫漫。换个角度来说,这也是孕育新机会的沃土。
历时近三个月的比赛结束了,大赛组委会选择这一个难度高且冷门的主题时,从未预料到大家的似火热情,而选手们也交出了这份令人惊喜的答卷,我们有理由相信,人工智能与生命科学的未来将会在你们手中熠熠生辉。