如果你花上几百个小时看电视,人们会管你叫懒鬼。但要是电脑做同样的事,就是一个技术成功的故事了。麻省理工学院(MIT)计算机科学与人工智能实验室开发的一种新算法便是如此。研究者让该程序“观看”了600个小时的Youtbe视频和《办公室》、《绝望主妇》、《实习医生风云》等电视节目,看它能否学习并预测人们的一些特定互动行为——如拥抱、接吻、击掌和握手。
这种算法利用被称为“深度学习”的人工智能技术来建构自己对人类互动方式的理解。研究者给该程序输入原始的、未经标识的数据,要求它自己辨别其中内容哪些是重要的,哪些不重要。而人类能在人生历程中自然建立起这种机制——我们会从身边的社会互动情景中找到蛛丝马迹。
为了测试该程序,研究者们向其展示人们在做四种行为(拥抱、接吻、击掌和握手)之前1秒的画面。该程序会生成一些可能的未来情形,并运用它所学到的来猜接下来会发生什么。在这种任务上,该程序有43%的正确率,而人类有71%的正确率。冯德里克认为,该程序在吸收更多的内容后会变得更加成功——600小时仅仅是25天而已。
冯德里克希望给该程序更多的视频来进行学习,也希望它能对更复杂的互动进行预测。如果这项程序足够先进的话,它就能作为智能安全摄像头进行使用:在有人即将受伤之际自动呼叫急救中心,或在有犯罪事件即将发生之际自动呼叫警局。
这项技术也可能使我们离像《杰森一家》里的机器女佣罗那样与人进行互动的机器人更加接近。“如果你想在家中有一个能够互动的机器人,那么它需要有一些预测未来的基本能力。”冯德里克说,“举个例子来说,在你正要坐在椅子上时,你不会希望机器人恰好在这时候把椅子抽走。”
冯德里克的团队并不是第一个从事视频预测算法的,但他们的算法是到目前为止最为精确的。华盛顿大学教授、机器学习专家佩德罗·多明戈斯(Pedro Domingos)表示:“他们的工作和其他人已经完成的并没有太大区别,但他们达到的结果要远远好于这一领域中的其他人所做到的。”
机器能够取得如此大成功的原因之一,是被冯德里克称为“视觉表征”(visual representations)的方法。抽象画面允许程序更一般性地对物体和动作进行表征。例如,它可以判断出一幅图画中包含一张面孔和一个椅子,而非一堆要去解释的颜色。
在第二个实验中,该程序在看过图画后,被要求预测5秒后会出现什么事物。举例来说,如果图画呈现一个人在靠近洗手池,那么它可能会猜测这个人将拿起一块肥皂。该程序的表现比之前其他的尝试已经高出30%,但仍然只有11%的正确率。
多明戈斯说,要像人类那样理解画面可比看起来要艰难,能让计算机向这一目标接近的算法寥寥无几,MIT团队的算法已是其中之一。“我们人类把视觉当做理所应当的,”多明戈斯说,“但其实演化花了5亿年才发展出视觉能力。你的大脑有三分之一用来处理视觉信息……而每幅画面中都有太多内容,要提取其中的物、人及行动,真的是很难的。”
不过,如果机器要通过视频来学习人类的互动方式,为什么选择不善社交的迈克尔·斯科特(Michael Scott,《办公室》中的人物)和工于心计的艾迪·布里特(Edie Britt,《绝望主妇》中的人物)作为材料?冯德里克解释说:“我们只是想用YouTube中随机的视频,而选择电视节目是因为我们容易得到这些数据。同时某程度上,电视节目在描述日常情景上也比较真实。”
冯德里克计划让该算法看好几年的电视节目,希望它能随时间变得更加精致。谁知道呢,或许它能变得比那些情景喜剧本身还要完善。