AI人脸识别技术已被广泛用于手机解锁、移动支付,甚至“看面相”。近日,来自美国数字医疗公司FDNA的研究人员提出了一种深度学习应用Face2Gene,可以帮助医生识别罕见基因疾病。他们的研究登上了医学期刊《Nature Medicine》,并被Nature和Science争相报道。Face2Gene的APP可以搭载在智能手机里,其识别遗传病的top-10准确率高达91%。
研究者称,这种深度神经网络识别罕见病的准确率超过了人类医生。如果继续改进一些问题,它就可以帮助全球儿童获得更好的医疗条件了。本月7日发表在《Nature Medicine》上的一篇论文提出了一种深度学习算法DeepGestalt,可以帮助医生和研究人员通过分析人们的面部照片来发现罕见遗传病。在这篇论文中,研究者详细介绍了这项辅助诊断方法背后的技术——一个名为Face2Gene的智能手机APP。
该应用依靠深度学习算法和类脑神经网络来区分人类照片中与先天性和神经发育障碍有关的独特面部特征。利用从照片中推断出的模式,该模型可以定位到可能的诊断结果,并提供可能的选项列表。研究人员正在提高算法能力,以帮助发现诸如德朗热综合征(CdLS)等遗传疾病的身体特征。医生已经使用这种技术作为辅助手段,尽管它给出的诊断并不是决定性的。
但是,研究者表示,这一工具引发了人们对伦理、法律方面的担忧,包括训练数据集中的种族偏见和数据集的商业成分,二者都可能会限制这一诊断工具的使用范围。FDNA是马萨诸塞州波士顿的一家数字医疗公司。在该公司首席技术官Yaron Gurovich的带领下,研究者们首先训练人工智能系统来区分德朗热综合征和天使人综合征,这两种疾病患者都有有别于其他疾病的明显面部特征。
他们还教该模型区分对第三种疾病——努南综合征的不同基因形式进行分类。接下来,研究者们给算法输入了涵盖216种不同综合征的17000多张确诊病例的图像。在用新面孔进行测试时,该APP的最佳诊断猜测准确率达到了65%。如果考虑多个预测结果,则Face2Gene的top-10准确率可以达到约90%。最终,FDNA想开发该技术来帮助其他公司过滤、优先处理和解释DNA分析中发现的未知基因变异。
但是要想训练模型,FDNA需要数据。因此目前医疗专家可免费使用Face2Gene app,其中许多人将该系统作为诊断罕见遗传性疾病的第二选择,Nemours/Alfred I. duPont儿童医院医学遗传专家、该研究的共同作者凯伦·格里普(Karen Gripp)说道。它还可以为对病人症状摸不着头脑的医生提供思路——“类似谷歌搜索”。
格里普也是FDNA的首席医疗官,她使用该算法帮助诊断一个小女孩的Wiedemann–Steiner综合征。这个小女孩才四岁,由于年龄较小,除了掉落大部分乳牙并长出多个恒牙,很多典型的躯体症状尚未显现。格里普读了很多关于患有Wiedemann–Steiner综合征的儿童牙齿过早生长的案例报告,这是由一种叫作KMT2A的基因变异引起的罕见疾病。
为了支撑该诊断的置信度,格里普将这个患者的照片上传到Face2Gene。软件上出现了“Wiedemann–Steiner综合征”。接着,他用靶向DNA测试进一步确定了这一诊断结果。她说,该AI方法可以帮助她缩小可能病症的范围,节约了更昂贵的多基因检测(multi-gene panel testing)费用。DeepGestalt高级流程和网络架构。
该网络由十个卷积层组成,除了最后一个之外的所有层都是批量归一化和ReLU。在每对卷积层之后是池化层(在前四对之后的最大池,和在第五对之后的平均池)。然后是具有dropout(0.5)和softmax层的全连接层。Gurovich表示,随着更多医疗专家将病人的照片上传到该APP,该项目的准确率也得到略微提高。现在该项目的数据库中大约有15万张照片。
在去年八月举办的一个先天性缺陷研讨会上,人们对Face2Gene和临床医生的准确率进行了一次非正式对比,结果表明Face2Gene优于人类。南卡罗来纳州格林伍德遗传中心(Greenwood Genetic Center)遗传学家Charles Schwartz向参与者发放十个儿童的面部照片(症状“容易识别”),然后让参与者进行诊断。只在两张照片上有半数以上的临床遗传学家诊断出正确结果。
而Face2Gene正确识别了其中7张照片里的症状。“我们输得很惨,Face2Gene打败了我们。”美国国家人类基因组研究所(US National Human Genome Research Institute)临床遗传学家Paul Kruszka说道。“我认为儿科医生和遗传学家将会有一个类似的app,并像使用听诊器一样使用它。”但只有训练数据集够好,算法才足够好用,因此这种技术存在风险。
尤其是涉及那种全球患者人数极少的罕见疾病时,公司和研究人员各自为营,将其数据集商业化。“这会威胁到这项技术的主要潜在优势。”带头促进这一领域数据共享的牛津大学计算生物学家Christoffer Nellåker说道。训练数据集(其中大部分为白人)中的种族偏见仍是一大问题。
2017年的一份儿童智力障碍研究表明,Face2Gene对唐氏综合征的识别率在比利时白人小孩中为80%,而在刚果黑人小孩中仅为37%。然而,随着训练数据集变得更加多样化,算法对非洲面孔的识别准确率亦随之提升,表明多样化人群的更公平表示是可以实现的。“我们知道这个问题需要解决,但随着我们技术的发展,偏见会越来越少。”Gurovich表示。