百年老图难倒谷歌AI,网友:是鸭是兔?连我都不能确定自从1892年首次出现在一本德国杂志上之后,这张图就一直持续引发争议。有些人只能看到一只兔子,有些人只能看到一只鸭子,有些人两个都能看出来。心理学家用这张图证明了一件事,视觉感知不仅仅是人们看到了什么,也是一种心理活动。但是,这张图到底应该是什么?上周四,有位学者决定让没有心理活动的第三方看一下。
然后就把这张图片给了谷歌AI,结果AI认为78%的概率是只鸟,68%的概率是一只鸭子。所以,百年争论可以歇了?鸭子派胜出?不不不,新的争论刚刚开始。只要把这张图竖起来给AI看,它认为是一只兔子,压根就没有鸭子的事儿。为了搞清楚这件事,供职于BuzzFeed的数据科学家Max Woolf设计了一个更复杂的实验,他干脆让这张图旋转起来,倒是要看看,谷歌AI什么表现。就是这么一转,成了推特上的热门。
图片顺时针旋转。谷歌AI最初认为是鸭子,鸭子嘴指向9点方向。随着鸭子嘴向上转到10点方向,很快谷歌AI就认为画里面是兔子了,直到鸭子嘴转到2点方向之后。此后一段时间,谷歌AI认为既不是鸭子也不是兔子。一直到7点方向,谷歌AI再次肯定是一只鸭子。有人说此刻谷歌AI的内心,可能就像迪士尼动画兔八哥里的这个场景。还有人给了更多类似的挑战图片,想考验一下谷歌AI的水平。
据说能看出来鸭子,又能看出来兔子,说明一个人的想象力更好。这里用到的谷歌AI,实际上是谷歌的Cloud Vision。这个服务提供了预训练的机器学习模型,可以用来理解图片内容。地址在此:https://cloud.google.com/vision/。同一张图片,由于位置不同,AI就产生了不同的判断。传统的卷积神经网络CNN架构中有个弊端,就是缺乏可用的空间信息。
一般来说,CNN提取、学习图像特征来识别物体。拿面部识别任务来说,底层网络学习一般性特征(比如面部轮廓等),随着层数的加深,提取的特征就越复杂,特征也精细到眼睛、鼻子等器官。问题来了,神经网络用它学习到的所有特征作出最后的输出,但唯独没有考虑到可用的空间信息。其实,让神经网络自己学会判断空间的研究已经有了。
2017年,“深度学习”三巨头之一的AI大牛Geoffrey Hinton就提出了一种“胶囊网络”(Capsule Networks)的概念。胶囊网络的解决办法是,实现对空间信息进行编码,也就是计算物体的存在概率。这可以用向量来表示,向量的模代表特征存在的概率,向量方向表示特征姿态信息。