AI如何识别和处理图片

作者: 万元芳

来源: 万有青年烩

发布日期: 2017-07-12

本文介绍了AI如何识别和处理图片,特别是通过神经网络和对抗生成网络(GAN)的技术,展示了AI在图像识别和生成方面的能力。

曾经,人类用眼睛记录了波澜壮阔的历史。现在,我们也在逐步开启人工智能的眼,让它在看懂这个多彩的世界的同时,更能做一些好玩的事情,比如风靡一时的Prisma。那么AI是如何“看”图?又是如何处理图片的呢? AG-Group 创始人万元芳来为你撕开AI神秘的面纱。

各位朋友们大家下午好,我是人工智能AG-Group的创始人。好多人认为“元芳”是花名,但其实这是我的真名。大家知道,23号、25号进行了两天人机大战,由我国最著名的棋手柯洁对战AlphaGo,很不幸被2:0了。在去年的这个时候,AlphaGo又以4:1,大比分领先赢了李世石。好像不知不觉间,AI悄无声息的就出现在了我们的生活中。

AI除了下围棋还能做什么?比如说2016年一个非常火的IP级的应用叫做Prisma,在国外科技媒体上有这样一个报道,全球有一半的人在拿着手机抓小精灵,另一半的人在拿Prisma修自己的照片,我们可以充分看到这样一个AI应用有多么火。

首先给大家看几张图,问一下大家这是什么?我放了三张自行车在这儿,可能大家会觉着我有点侮辱大家的智商,确实这三个都是自行车。那接下来给大家看这个,这个是什么,这个是什么,这个又是什么?听到底下有人说还是自行车,但是可能好多人就没有出声了,为什么呢?因为它们好像确实跟自行车有那么一点不一样。其实它们是啥我也不知道,我是从网上随便选了几张图。

为什么我们会在看到那几张图的时候,不由自主的认为它是自行车呢?也就是说,这是我们人类观察中的特点。我们在面对一个未知的东西的时候,我们首先会观察它的特征,根据我们观察到的特征与我们已知的事物,就是和我们的经验进行匹配,与它最匹配的东西,我们就会认为是它。

我们自行车有什么特征呢?比如说看有两个轮,有车把、有脚蹬、有链条,满足上述的三四条就认为是自行车,这就是为什么我们在看上面的图的时候,明显我不知道这是什么的时候,直觉会告诉我这应该是自行车。

什么是AI?这个图是我从百度百科上截的一个图,比较枯燥。换成人话来说,AI是什么?AI就是一种算法,它可以自动调节自己的参数,通过调节自己的参数来使自己的性能逐渐提升,也就是我们所说的一种学习算法,包括传统的机器学习,与现在很热的深度学习,可以进行自我学习,通过不断的迭代到达我们人类所说的进化的过程。

什么是神经网络?我们现阶段的AI算法,因为AI早在20世纪60年代就已经被提出来了,为什么一直不为人知?就是因为它的算法有自己的局限性。而到到今天他比较火,是因为它的算法是神经网络。我们可以看到左下的图是人类细胞在进行信号传导过程中,神经细胞互相之间传导的示意图,右下则是神经网络的模型,这个模型是完全仿自人类的神经细胞,所以性能会非常强,说白了就是仿生学里用来仿人的。

可能大家听了很多还是不太明白,到底什么是神经网络呢?用一个非常简单的例子,我知道在座的各位可能学什么的都有,但是我相信大家初中数学一定学过一个公式叫y=kx+b。神经网络就是已知y和x,求k和b的过程,就是可以理解为最简单的神经网络。一个案例就是上图,如果我在二维平面中有一大堆点,如何寻找一条直线最好拟合它们的关系?这就是神经网络要做的事情,也是它最早被提出来做的工作。

AI如何“看”图片?

人类看到的图,比如说这个可能是一个图。但是我们知道,计算机看到的是数字,看到的是一个数值矩阵。我们的神经网络既然是仿人类,所以它在学习过程中也像人类一样是学习一个图的特征的。从左到右,由浅入深。我们可以看到左图,在浅层学到的是圆弧、直线,一些比较简单的特征。在深层的神经细胞中,可以学到一些圆,特定的形状作为它的特征。到了最右边的图,可以看到它学到了很高级的特征,比如说车轮的特征,车门的特征等等。

这样的话,当输入一个照片的时候,它就可以通过特征来识别,提取它看到这张图片的特征,根据特征来判断它看到的是什么。

什么是对抗生成网络?今天重点的东西叫对抗生成网络,简称就是GAN,它的读音就像拼音一样,读“GAN”。所以大家可以查一下,在网上可以看到好多开车的标题叫“不要怂就是干”、“干来干去”,其实就是讲它的一个文章。大家看到这张图会想到什么?

放了一个比较没有内涵的图,因为主办方跟我说今天不能在这儿开车。它原图其实长这样。我们的GAN能干什么呢?可以通过看到左边的图片把右边画出来,好多人可能觉得这东西有大用。

AI如何“画”图?我们的GAN到底是怎么形成的呢?比如我们遇到一个新游戏,我们如何让自己变成高端玩家?我要玩,我一开始不知道怎么玩,所以我玩的时候会死。

死的时候不断总结自己的经验,同时会查攻略,请教一些大神教我怎么玩这个游戏,我可以玩得更好。通过不断的尝试,不断学习的过程,我会玩的越来越好,直到把游戏玩通关。我们的GAN其实是同样的道理,只不过可以用来生成文字,用来画画。开始我们什么不会画,画完之后交给老师看,就是这个过程中老师来判断画到底好不好,如果不好应该怎么改进,久而久之会达到一个最终的效果。

这是计算机生成的,GAN在学之前画的最开始的画,是一大堆噪点,什么内容都没有。学着学着就可以画出我们想要的图了,达到这样的效果。比如说可以复现出一个照片,可以给他一个照片,它可以仿照这个风格,把这个风格的照片迁移出来。比如说刚才大家很关心的如何去马赛克的问题,这是我们团队所做的图。右边是原图,中间是计算机看着左边画出来的。为什么不太像呢?因为我们团队比较穷,设备跟不上,所以画出来的不太好。

还可以有更好玩的?它还可以干什么好玩的呢?它还可以干这个。比如我们可以画一个线稿,来脑补出这个线稿应该长什么样子。

UUID: 9eb61758-aa65-43a4-9ce9-7f8e14d62e2c

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2017/2017-07-12_天真!你以为打马赛克就安全了?AI一样能识别!.txt

是否为广告: 否

处理费用: 0.0052 元