近日,由美国多所著名大学(哈佛大学,乔治亚理工,麻省理工学院,卡耐基梅隆大学,斯坦福大学,伊利诺伊大学厄巴纳-香槟分校)的研究人员,与医疗数据公司IQVIA合作,发布了医疗领域内首个面向疗法的统一机器学习开源框架——Therapeutics Data Commons(TDC)。
TDC的详细介绍论文Therapeutics Data Commons: Machine Learning Datasets and Tasks for Therapeutics已经通过预印本发布发表在自然杂志上。
目前,TDC已经收录有22个机器学习任务,以及与它们所对应的与安全药物研发过程有关的66个数据集,且包含许多社区性资源功能,属一个集各种资源和工具为一体的线上疗法研发用的机器学习研究平台。TDC是一个针对疗法研发领域,将机器学习数据集、任务和算法连接起来的平台,其内容涵盖疗法研发过程中的所有主要阶段。
TDC属世上首个可以系统地索引、使用并评估疗法研发用机器学习算法的研发平台,其核心内容为为将算法上的创新与生物医学研究和临床试验链接起来而精选的数据集和机器学习任务。TDC共囊括66个数据集和22个机器学习任务,从靶蛋白的发现、药物动力学、安全性、药物生产均有覆盖,包含小分子、抗体、疫苗、miRNA等研究。
TDC的所有功能都能被容易地集成到机器学习的工作流程中,另外配备了一个开源软件库,以供研究人员高效地检索TDC所有数据集和机器学习任务。现在,TDC的两个leaderboard——ADMET、Drug Combination已经发布。