AI如何识别和处理图片

曾经，人类用眼睛记录了波澜壮阔的历史。现在，我们也在逐步开启人工智能的眼，让它在看懂这个多彩的世界的同时，更能做一些好玩的事情，比如风靡一时的Prisma。那么AI是如何“看”图？又是如何处理图片的呢？ AG-Group 创始人万元芳来为你撕开AI神秘的面纱。

各位朋友们大家下午好，我是人工智能AG-Group的创始人。好多人认为“元芳”是花名，但其实这是我的真名。大家知道，23号、25号进行了两天人机大战，由我国最著名的棋手柯洁对战AlphaGo，很不幸被2：0了。在去年的这个时候，AlphaGo又以4：1，大比分领先赢了李世石。好像不知不觉间，AI悄无声息的就出现在了我们的生活中。

AI除了下围棋还能做什么？比如说2016年一个非常火的IP级的应用叫做Prisma，在国外科技媒体上有这样一个报道，全球有一半的人在拿着手机抓小精灵，另一半的人在拿Prisma修自己的照片，我们可以充分看到这样一个AI应用有多么火。

首先给大家看几张图，问一下大家这是什么？我放了三张自行车在这儿，可能大家会觉着我有点侮辱大家的智商，确实这三个都是自行车。那接下来给大家看这个，这个是什么，这个是什么，这个又是什么？听到底下有人说还是自行车，但是可能好多人就没有出声了，为什么呢？因为它们好像确实跟自行车有那么一点不一样。其实它们是啥我也不知道，我是从网上随便选了几张图。

为什么我们会在看到那几张图的时候，不由自主的认为它是自行车呢？也就是说，这是我们人类观察中的特点。我们在面对一个未知的东西的时候，我们首先会观察它的特征，根据我们观察到的特征与我们已知的事物，就是和我们的经验进行匹配，与它最匹配的东西，我们就会认为是它。

我们自行车有什么特征呢？比如说看有两个轮，有车把、有脚蹬、有链条，满足上述的三四条就认为是自行车，这就是为什么我们在看上面的图的时候，明显我不知道这是什么的时候，直觉会告诉我这应该是自行车。

什么是AI？这个图是我从百度百科上截的一个图，比较枯燥。换成人话来说，AI是什么？AI就是一种算法，它可以自动调节自己的参数，通过调节自己的参数来使自己的性能逐渐提升，也就是我们所说的一种学习算法，包括传统的机器学习，与现在很热的深度学习，可以进行自我学习，通过不断的迭代到达我们人类所说的进化的过程。

什么是神经网络？我们现阶段的AI算法，因为AI早在20世纪60年代就已经被提出来了，为什么一直不为人知？就是因为它的算法有自己的局限性。而到到今天他比较火，是因为它的算法是神经网络。我们可以看到左下的图是人类细胞在进行信号传导过程中，神经细胞互相之间传导的示意图，右下则是神经网络的模型，这个模型是完全仿自人类的神经细胞，所以性能会非常强，说白了就是仿生学里用来仿人的。

可能大家听了很多还是不太明白，到底什么是神经网络呢？用一个非常简单的例子，我知道在座的各位可能学什么的都有，但是我相信大家初中数学一定学过一个公式叫y=kx+b。神经网络就是已知y和x，求k和b的过程，就是可以理解为最简单的神经网络。一个案例就是上图，如果我在二维平面中有一大堆点，如何寻找一条直线最好拟合它们的关系？这就是神经网络要做的事情，也是它最早被提出来做的工作。

AI如何“看”图片？

人类看到的图，比如说这个可能是一个图。但是我们知道，计算机看到的是数字，看到的是一个数值矩阵。我们的神经网络既然是仿人类，所以它在学习过程中也像人类一样是学习一个图的特征的。从左到右，由浅入深。我们可以看到左图，在浅层学到的是圆弧、直线，一些比较简单的特征。在深层的神经细胞中，可以学到一些圆，特定的形状作为它的特征。到了最右边的图，可以看到它学到了很高级的特征，比如说车轮的特征，车门的特征等等。

这样的话，当输入一个照片的时候，它就可以通过特征来识别，提取它看到这张图片的特征，根据特征来判断它看到的是什么。

什么是对抗生成网络？今天重点的东西叫对抗生成网络，简称就是GAN，它的读音就像拼音一样，读“GAN”。所以大家可以查一下，在网上可以看到好多开车的标题叫“不要怂就是干”、“干来干去”，其实就是讲它的一个文章。大家看到这张图会想到什么？

放了一个比较没有内涵的图，因为主办方跟我说今天不能在这儿开车。它原图其实长这样。我们的GAN能干什么呢？可以通过看到左边的图片把右边画出来，好多人可能觉得这东西有大用。

AI如何“画”图？我们的GAN到底是怎么形成的呢？比如我们遇到一个新游戏，我们如何让自己变成高端玩家？我要玩，我一开始不知道怎么玩，所以我玩的时候会死。

死的时候不断总结自己的经验，同时会查攻略，请教一些大神教我怎么玩这个游戏，我可以玩得更好。通过不断的尝试，不断学习的过程，我会玩的越来越好，直到把游戏玩通关。我们的GAN其实是同样的道理，只不过可以用来生成文字，用来画画。开始我们什么不会画，画完之后交给老师看，就是这个过程中老师来判断画到底好不好，如果不好应该怎么改进，久而久之会达到一个最终的效果。

这是计算机生成的，GAN在学之前画的最开始的画，是一大堆噪点，什么内容都没有。学着学着就可以画出我们想要的图了，达到这样的效果。比如说可以复现出一个照片，可以给他一个照片，它可以仿照这个风格，把这个风格的照片迁移出来。比如说刚才大家很关心的如何去马赛克的问题，这是我们团队所做的图。右边是原图，中间是计算机看着左边画出来的。为什么不太像呢？因为我们团队比较穷，设备跟不上，所以画出来的不太好。

还可以有更好玩的？它还可以干什么好玩的呢？它还可以干这个。比如我们可以画一个线稿，来脑补出这个线稿应该长什么样子。