在一个完美的世界里,眼见即为现实。如果是这样的话,人工智能的操作就简单多了。只可惜,世界并不总是完美的。如何让算法避免对抗性输入的干扰从而提高鲁棒性便成为人工智能领域的一大难题。
以自动驾驶汽车的防撞系统为例。如果车载摄像头的视觉输入信号准确无误、完全可信的话,人工智能系统便可将信号直接对应到决策中,进而用右转、左转或直行的方法避开路上的行人。但如果车载摄像头因故障产生了像素上的偏差,那又会怎样呢?事实是,如果人工智能系统盲目地相信了所谓的“对抗性输入”,那它可能会作出不必要且危险的决策。
日前,麻省理工学院航天控制实验室的研究人员开发了一种新的深度学习算法,通过在输入中建立合理“怀疑”来帮助计算机适应真实的、不完美的世界。
这篇以“Certifiable Robustness to Adversarial State Uncertainty in Deep Reinforcement Learning”为题的论文于近日发表于IEEE的Transactions on Neural Networks and Learning Systems上。
以该团队将强化学习算法与深度神经网络相结合,建立了名为“深度强化学习在对抗性输入下可验证的鲁棒性”(Certified Adversarial Robustness for Deep Reinforcement Learning,CARRL)。研究人员在几个场景中测试了这种方法,包括模拟自动驾驶防撞测试和乒乓球电脑游戏(Pong)。
他们发现在面对不确定的对抗性输入时,CARRL比其他的机器学习技术表现更好,它能避免更多碰撞,且赢得了更多的Pong游戏。
本文主要作者,麻省理工学院航空航天实验室博士后迈克尔在接受TechExplore采访时表示:“也许很多人认为对抗性是指别人在恶意侵入你的电脑。但可能仅仅是因为你的传感器不太好,或者测量结果不准。这是经常发生的情况。我们的方法有助于将这种缺陷考虑进来,并做出安全的决定。在任何涉及安全的关键领域,这都是一个需要考虑的重大问题。”
为了使人工智能系统对对抗性输入产生鲁棒性,研究人员尝试给监督学习算法提供防御机制。传统上来说,神经网络被会将特定输入与相关的标签或决策关联。例如,如果给一个神经网络输入了数千张被标记为猫的图像,那么这个神经网络应该可以将一张新图像正确地标记为一只猫。
在鲁棒性较高的人工智能系统中,人们可以用略微改变的图像对监督学习算法进行测试。但是,穷尽所有的细微改变在计算上几乎是不可能的,并且在即将碰撞等时间紧迫的条件下,算法也很难成功地做出反应。因此,如果算法不具有较好的鲁棒性的话,现有的方法不能识别正确的标签,或者采取正确行动。
论文作者之一Björn Lütjens说:“为了在涉及安全的关键场景中使用神经网络,我们必须研究如何在最坏的现实情况下做出实时决策。”
为了解决以上问题,该团队开始探索机器学习的另一种算法 --- 强化学习。与监督学习不同,强化学习不需要通过标签将输入与输出相关联,而是通过尝试找到规律,根据结果得到奖励从而强化特定行动。这种方法通常用于训练计算机下棋等游戏。
强化学习主要应用于假设输入为真的情况。迈克尔和他的同事们说,他们是在强化学习中给不确定的对抗性输入带来“可验证的鲁棒性”的第一人。他们所采用的CARRL方法利用现有的深度强化学习算法来训练深度Q网络(DQN),并最终将输入与Q值或奖励水平相关联。
如果将一个有单个圆点的图像作为为输入对象,CARRL可以考虑到对抗性的影响。换句话说,CARRL可以考虑到圆点可能实际所在的整个区域。根据麻省理工学院Tsui-Wei "Lily" Weng开发的一项技术,该区域内圆点的每一个可能位置都会通过DQN进行反馈,以找到最糟糕的情况下产生最优奖励的决策。
在一个名叫“乒乓球” (Pong) 的测试中,两名玩家在屏幕两侧操作球拍来回传球。而研究人员引入了一个“对抗性因素”,将球拉得比实际位置略低。迈克尔说:“如果我们知道一个测量结果不完全可信,而且球可能在某个区域内的任何地方,那么我们的方法就会告诉计算机,它应该把球拍放在那个区域的中间,以确保我们即使在最坏的情况下也能击中球。”
该方法在避免碰撞的测试中也同样稳健。在防撞测试中,研究小组模拟了蓝色和橙色的计算机(自动驾驶系统),它们试图在不发生碰撞的情况下交换位置。由于团队扰乱了橙色计算机对蓝色计算机的观察位置,CARRL便引导橙色计算机绕过另一个计算机,达到了更大的安全距离。
确实有一段时间,CARRL变得过于保守,导致橙色计算机认为蓝色计算机在其附近的任何地方。之后它甚至完全避开了它的目的地。迈克尔说,这种极端的保守行为是有用的,因为研究人员可以将其作为一个极限来调整算法的鲁棒性。例如,算法可能会小小地绕开不确定区域,但仍然到达目的地获得较高回报。
迈克尔说,除了克服不完美的传感器外,CARRL可能是帮助机器人安全应对变化莫测的现实世界的开始:“人们可能充满敌意。比如走在机器人前面挡住它的传感器,或者并非出于好意对它们做出一些举动。”“机器人怎么可能想到人们想要做的所有事情,并试图规避呢?我们想要防御什么样的对抗模式?这是我们正在考虑的事情。”