本周,DeepMind的MuZero通过了同行评审,发表在了最新一期的Nature杂志上。MuZero是一个通用的游戏AI,它在围棋、象棋、将棋和57款Atari游戏上都超过了人类的表现。而且这个AI事先不需要事先知道规则。近日,DeepMind的首席科学家、AlphaGo首席研究员David Silver接受了《连线》杂志的采访,讨论了MuZero、强化学习以及对未来通用人工智能的看法。
David Silver毕业于剑桥大学,在那里与DeepMind创始人Demis Hassabis成为朋友。Silver曾领导DeepMind的强化学习研究小组,由于在计算机游戏领域的突破性进展,他获得了2019年ACM计算奖。
为何MuZero很重要?连线:MuZero发表在Nature杂志上。对于不了解此事人,告诉我们为什么它很重要。David Silver:MuZero向前迈出的重要一步是,我们没有告诉它环境的动态。它必须自己想办法,让自己提前计划,想出最有效的策略。我们希望拥有在现实世界中可以运行的算法,而现实世界却是复杂、混乱且未知的。所以你不能只向前看,就像下棋一样。你必须学会这个世界是如何运转的。
MuZero有何实际用途?DeepMind最近宣布,已利用AlphaZero背后的技术解决了一个重要的实际问题:预测蛋白质折叠的形状。你认为MuZero将在哪方面产生首个重大影响?当然,我们正在寻找将MuZero应用到现实世界中的方法,并且有一些令人鼓舞的初步结果。举一个具体的例子,互联网上的流量主要是视频,而一个开放的大问题是如何尽可能有效地压缩这些视频。
您可以将其视为强化学习问题,因为有许多非常复杂的程序可以压缩视频,但是你接下来看到的是未知的。但是当你把像MuZero之类的东西应用于其中时,我们的初步结果显示,在节省大量数据方面它看起来很有希望,可能是压缩视频所用比特的5%左右。
强化学习能否通向人工智能?你是否有信心可以从象棋和Atari等游戏到真正的智能?是什么让你认为强化学习会产生有常识理解的机器?有一个假设,我们称其为“奖励足够”假设。这个假设说,智能的基本过程可以像一个寻求最大化其奖励的系统一样简单,而试图实现目标并试图最大化奖励的过程,足以产生我们在自然智能中看到的所有智能属性。这是一个假设,我们不知道它是否正确,但这为研究提供了方向。
算力是否会限制AI发展?
DeepMind是否有压力再做一次大型展示,例如AlphaGo?这是个好问题。这个问题问得好。我觉得我们处于一个非常有利的位置,因为我们的位置和资金都很安全,所有这些都非常非常安全。尝试进行一个新的大规模的展示,唯一的压力是推动通用智能的进步。这是一种真正的特权,当你在创业公司试图获得资金时,或者在学术界试图获得资助时,你就没有这种特权。强大的AI系统现在需要大量的计算机能力才能工作。
你是否担心这会阻碍进展?让我们回到MuZero,这是一个算法的例子,它可以很好地随着计算而伸缩。我们在Atari进行了一项实验,结果表明即使使用非常少量的计算(大约相当于一个GPU运行几周),它的效果也非常好,并且获得了远远超过人类的性能。
人工智能伦理。一些军火商正在利用强化学习来建造更强的武器系统。你对此有何感想?你有没有想过你的一些作品不应该公开发表?
我反对在任何致命武器中使用AI,并希望我们在禁止致命自动武器方面取得更多进展。DeepMind及其联合创始人是《致命自动武器承诺》的签署方,攻击性技术应始终处于适当的人类控制之下。然而,我们仍然相信,适当发布我们的方法是科学的基石,通用AI算法的发展将在众多积极应用中带来更大的整体社会效益。