今年9月,被誉为机器学习和神经网络领域的顶级会议之一的神经信息处理系统大会(NeurIPS 2019)揭晓收录论文名单,创新工场人工智能工程院的论文《深度困惑:一种利用自编码器生成恶意训练样本的方法》被收录在列。该论文作者包括创新工场南京国际人工智能研究院执行院长冯霁、创新工场南京国际人工智能研究院研究员蔡其志、南京大学人工智能学院院长周志华。
“论文围绕现阶段人工智能系统的安全性展开研究。具体而言,文章提出了一种高效生成对抗训练样本的方法DeepConfuse,通过微弱扰动数据库的方式,彻底破坏对应的学习系统的性能,达到‘数据下毒’的目的。”冯霁介绍。
创新工场人工智能工程院执行院长王咏刚表示,近年来,机器学习热度不断攀升,并逐渐在不同应用领域解决各式各样的问题。不过,很少有人意识到,其实机器学习本身也很容易受到攻击,模型并非想象中坚不可摧。
据介绍,在训练(学习阶段)或是预测(推理阶段)这两个过程中,机器学习模型都有可能被对手攻击,而攻击的手段也是多种多样。例如,一家从事机器人视觉技术开发的公司,希望训练机器人识别现实场景中的器物、人员、车辆等,却不慎被入侵者利用论文中提及的方法篡改了训练数据。
研发人员在目视检查训练数据时,通常不会感知到异常,因为使数据“中毒”的噪音数据在图像层面很难被肉眼识别,这使得训练过程一如既往的顺利。但这时训练出来的深度学习模型在识别能力上会大幅退化,用这样的模型驱动的机器人在真实场景中会彻底“懵圈”,陷入什么也认不出的尴尬境地。
更有甚者,攻击者还可以精心调整“下毒”时所用的噪音数据,使得训练出来的机器人视觉模型“故意认错”某些东西,比如将障碍认成是通路,或将危险场景标记成安全场景等。
创新工场人工智能工程院为此专门成立了AI安全实验室,针对人工智能系统的安全性,进行了深入评估和研究。在论文中,冯霁等人提出了一种高效生成对抗训练数据的先进方法DeepConfuse,通过劫持神经网络的训练过程,教会噪音生成器给训练样本添加一个微弱的扰动,给数据下一味“蒙汗药”。
冯霁表示,“数据中毒”与常见的“对抗样本攻击”是不同的攻击手段,存在于不同的威胁场景:前者通过修改训练数据让模型“中毒”,后者通过修改待测试的样本让模型“受骗”。从实验结果来看,给数据“下蒙汗药”的方法生成的对抗噪声,具有通用性,对机器学习具有很好的训练效果。
不过冯霁表示,这一技术的研究并不单单是为了揭示类似的AI入侵或攻击技术对系统安全的威胁,而是致力于在深入研究相关的入侵或攻击技术的基础上,有针对性地制定防范“AI黑客”的完善方案。事实上,社会上已经出现了利用AI模拟语音来诈骗钱财的案件,这是AI安全遇到的相对严重的事件。
“AI技术必然会被应用于各种核心业务领域,甚至涉及财产或生命安全,如医疗、自动驾驶、金融等领域。未来随着AI攻击技术的发展,相关的安全事件必然越来越多。”王咏刚说。
“目前AI安全事件还不像传统计算机系统的病毒一样普遍。”冯霁指出,“但是有理由相信,随着时间的推移,未来AI安全事件会变得很多;另外针对AI安全的法律也会逐步出台。”
“我们的目的是对人工智能系统的安全性做一个技术性评估,假设数据库被恶意篡改的话,对应的系统会坏成什么样。”冯霁说,论文的另一个目的,是呼吁业界对该问题引起重视。
王咏刚表示,这一研究,对AI安全攻防这一前沿研究方向具有推动和指导作用。“这类似于网络安全工程师研究黑客入侵技术、攻击技术,只有对攻击技术有了全面充分的了解,才能制定有效的防范措施,开发相应的安全标准、安全工具。”
冯霁强调,AI系统的安全性和隐私性保证,是人工智能发展的必经之路。“类似于计算机网络/计算机系统发展初期,当时病毒不多,但是随着时间的推移,病毒爆发式发展,同时也催生出了规模巨大的安全产业。”冯霁预计,AI安全的威胁,要比目前的计算机病毒严重得多。
据了解,NeurIPS自1987年诞生,至今已有32年的历史,一直以来备受学术界和产业界的高度关注。该会议固定在每年的12月举行,由NeurIPS基金会主办。在中国计算机学会的国际学术会议排名中,NeurIPS为人工智能领域的A类会议,同时也是人工智能领域最负盛名的年度会议之一。
一直以来,NeurIPS都以重视论文质量著称,并保持着相对较低的录取率。今年,NeurIPS会议的论文投稿量再创新高,共收到6743篇投稿,最终录取1428篇论文,录取率为21.2%。
NeurIPS称,创新工场这篇论文能够入选NeurIPS,在于“创新工场的AI工程院通过广泛的科研合作以及自身的科研团队,密切跟踪前沿科研领域里最有可能转变为未来商业价值的科研方向”。
王咏刚介绍,这种“科研助推商业”的思路,力图尽早发现有未来商业价值的学术研究,然后在保护各方知识产权和商业利益的前提下积极与相关科研方开展合作,同时由AI工程院的产品研发团队尝试该项技术在不同商业场景里可能的产品方向、研发产品原型,并由商务拓展团队推动产品在真实商业领域的落地测试,继而为创新工场的风险投资团队带来早期识别、投资高价值赛道的宝贵机会。
创新工场董事长李开复表示,“科研助推商业”并不是简单地寻找有前景的科研项目,而是将技术跟踪、人才跟踪、实验室合作、知识产权合作、技术转化、原型产品快速迭代、商务拓展、财务投资等多维度的工作整合在一个统一的资源体系内,以市场价值为导向,有计划地衔接学术科研与商业实践。以AI为代表的高新技术目前正进入商业落地优先的深入发展期,产业大环境急需前沿科研技术与实际商业场景的有机结合。
据悉,创新工场目前已经设有医疗AI、机器人、机器学习理论、计算金融、计算机感知等面向前沿科技与应用方向的研发实验室,还先后设立了创新工场南京国际人工智能研究院、创新工场大湾区人工智能研究院,致力于培养人工智能高端科研与工程人才,研发以机器学习为核心的前沿人工智能技术,并同各行业领域相结合,为行业场景提供一流的产品和解决方案。