打破开放与隐私壁垒！7国30家机构创建最大医学AI协作系统，联邦学习了解下

近年来，随着AI的发展，我们已经看到了人工智能在发现乳腺癌、肺癌和皮肤癌方面超过了医生。现在，研究人员又将注意力转向了脑瘤。由宾夕法尼亚大学医学院领导、29家国际医疗和研究机构参与的联合团队正在创建一个有史以来最大脑瘤数据集训练的人工智能模型，基于一种名为联邦学习（Federated Learning）的技术，可以在分散的服务器之间训练算法。

这样以来，来自美国、加拿大、英国、德国、荷兰、瑞士和印度的医疗机构就可以在不共享病人数据的情况下协同工作，并创建一个比任何一家机构的数据集更大的数据集。

我们都知道，做人工智能研究首先是要处理数据，而面对大量分散的数据，又该怎么办呢？谷歌在2017年推出了联邦学习技术，这是一种分布式机器学习方法，可在深度学习项目上实现多机构协作，而无需共享患者数据。

2018年，英特尔开始与宾夕法尼亚大学生物医学图像计算与分析中心（CBICA）合作，展示了联邦学习在现实医学成像中的首次概念验证应用，特别证明了联邦学习对肿瘤检测算法的功效。英特尔表示，当测试基于单个医疗机构数据建立的人工智能模型时，发现其平均准确率为70%，而使用联邦学习技术训练的人工智能模型的准确率为85.7%。

联邦学习的优势在于，它使人工智能算法能够对驻留的数据进行训练，而不是将数据传输到中心位置。它的工作原理是让每个合作者在各自的数据上训练一个相同的AI模型，将一个伙伴的模型学习的内容与其他参与者的模型相结合，重复这个过程，直到更新的模型运行良好为止。这种联邦学习方法对卫生保健组织极有吸引力，因为疾病检测算法需要大量数据才能得出准确的结论，但对共享医疗数据的限制一直是开发此类系统的一大挑战。

为了训练并建立模型以有助于早期发现脑瘤，研究人员需要访问大量有关医学的数据。但是，最重要的是，数据必须保持私有和受保护。这也正是采宾夕法尼亚大学合作使用保护隐私的AI识别脑瘤的原因。通过使用联邦学习这种方法，所有合作伙伴组织的研究人员将能够共同构建和训练检测大脑的算法肿瘤，同时保护敏感的医学数据。

美国咨询公司Gartner Inc.研究副总裁Laura Craft说，医疗机构多年来一直寻求在研究项目上进行合作，包括开发用于临床诊断的预测模型。“联邦学习有望让这些合作更有效率。”她继续补充说，该技术的好处之一是训练数据可能更加多样化，这使得算法可以用于不同的患者群体。但她说，最大的挑战之一是确保培训数据“标准化和规范化”。

宾夕法尼亚大学医学院的研究人员也承认存在数据无法一致的问题，并表示其软件团队由资深开发人员Sarthak Pati领导，正在开发一套数据标准化系统，比如确保医学图像具有相似的分辨率。研究人员表示，该小组有望在下个月开始训练他们的模型。下一步计划在2020年，宾夕法尼亚大学医学院和29个国际医疗机构将使用英特尔的联邦学习硬件和软件来生成最新的AI模型。

该模型已在迄今为止最大的脑肿瘤数据集上进行了训练，预计该项目涉及世界各地的卫生系统，包括圣路易斯华盛顿大学、加拿大皇后大学、德国慕尼黑工业大学、英国伦敦国王学院以及印度的塔塔纪念医院。