伴随着算力的提升、算法的进步和数据量的增加,人工智能(AI)迎来了第三次发展浪潮,开始了在各行各业的落地探索。那么,人工智能技术是否真能如我们预想一般在各行各业落地生根?当我们把目光拉远到整体行业应用中时,问题就凸显出来了——除了有限的几个行业,更多的应用领域有的只是小数据,或者质量很差的数据,并且这些数据分散在不同机构中,形成了“数据孤岛”,缺乏有效的互通和协作。
能否把散落在各地、各机构的数据合并成大数据,这就存在着另一个问题——数据隐私保护。近年来,随着政策法规的逐渐完善和公众隐私保护意识的加强,如何在保护数据隐私的前提下实现行业协作与协同治理,如何破解“数据孤岛”与“数据隐私保护”的两难困境,已成为当下人工智能技术行业应用中亟待解决的问题。
联邦学习(federated learning)作为一种新兴的人工智能技术,可以解决“数据孤岛”和“数据隐私保护”的问题,有望成为下一代人工智能协同算法和协作网络的基础。联邦学习是指在满足隐私保护和数据安全的前提下,设计一个机器学习框架,使各个机构在不交换数据的情况下进行协作,提升机器学习的效果,其核心就是通过建立一个数据“联邦”,解决“数据孤岛”和“数据隐私保护”的问题。
联邦学习具有以下4点特征:各方数据都保留在本地,不泄露隐私,也不违反法规;多个参与者联合数据建立虚拟的共有模型,实现各自的使用目的,共同获益;在联邦学习的体系下,各个参与者的身份和地位相同;联邦学习的建模效果类似于传统深度学习。
2016年,Google公司最先提出了“联邦学习”的概念,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
当前,联邦学习在智慧金融、智慧医疗、智慧城市及物联网等方向都已实现了落地应用。例如,在智慧金融方向,联邦学习将打破各个企业之间的数据壁垒,是企业完成数字化转型的关键。在智慧医疗方向,联邦学习在不共享患者数据的情况下联合多个机构进行协作,从根本上解决数据流通和模型训练的问题。在物联网方面,联邦学习在车联网、智能家居、可穿戴设备、机器人等方向也有着巨大的应用潜力。
以上部分内容节选自《深入浅出联邦学习:原理与实践》,在不改变原意的前提下,做了简要的编辑。该书从基础、原理、实战、拓展四个维度系统讲解了联邦学习,作者是人工智能领域的资深专家,现任某大型金融集团科技公司联邦学习团队负责人。本书不仅得到了中外院士的联合推荐,而且得到了来自清华大学、华中科技大学、百度、蚂蚁集团、同盾科技等学术界和企业界专家的一致推荐。