AI又进阶！除了鉴别PS图片，还能一键卸妆！

最近CVPR2020的论文集合在GitHub火了，CVPR2020-Paper-Code的项目（https://github.com/extreme-assistant/CVPR2020-Paper-Code-Interpretation）已获得超5.2K Star（截至发稿），甚至一度排在趋势榜的前五名位置。

在通读了CVPR2020论文的概要之后，最令笔者印象深刻的当属由华为诺亚实验室与复旦大学联合发表的论文《FM2u-Net: Face Morphological Multi-Branch Network for Makeup-Invariant Face Verification》。

读过了这篇论文后笔者脑洞大开：是某位作者经历了换脸风化妆的约会套路后，才会提出了FM2u-Net“AI卸妆药水”，来帮助恋爱中的男女看清妆容下真实的脸。当然目前FM2u-Net的计算规模还非常大，计算量上应该还有优化空间。笔者不排除后续优化模型推出后，会有App直接嵌入一键卸妆的功能。

在去年CVPR2019大会上，Photoshop的母公司Adobe与伯克利共同推出的论文《Learning Rich Features for Image Manipulation Detection》技惊四座，他们提出的模型可以用于侦测图像是否有被PS过。这款反PS工具准确率极高，根据论文数据显示，一般人眼分辨PS痕迹大约有53%的准确率，但是反PS工具识别准确率高达99％以上。

到了CVPR 2020，妆容迁移的问题明显在人脸识别的领域中得到了更多的重视，比如我们马上要解读的这篇FM2u-Net的论文，就将视角完全聚焦在了妆容不变性上。可以说“照骗”一族和“化妆”一族在AI的侦测下，通通都只有立现原形的份，按照目前的趋势发展，只要整合了整容不变性技术，AI就基本集齐龙珠，实现火眼金睛了，所以明年整容迁移问题能否成为CVPR2021的焦点话题，值得我们拭目以待。

如今人脸技术也形成了识别侦测与合成伪造的两大流派，这两大流派形成了典型的相互促进，相互攻防的趋势。人脸识别技术最开始被人们所熟知在2017年前后，当时歌神张学友的演唱会上，AI人脸识别技术屡屡立下大功，甚至创造了一次演唱会，就帮助公安机关抓捕到5名逃犯的纪录。这赋予了《她来听我的演唱会》这首老歌新的含义，扯远了。

当时大众对AI还缺乏了解，据说不少人在被逮捕时，还一脸茫然，完全没想到人脸识别技术能在多年后准确找到自己。这让人们惊呼原来人脸识别这么牛啊，因为人脸识别技术在人员身份认证上所体现出来的便捷性及带来的效率提升，相关人脸识别产品、解决方案层出不穷。人脸识别被广泛应用于机场、火车站、社区、园区等诸多场景的身份识别、考勤打卡甚至金融支付应用当中。

这开启了一个方便快捷的时代，用户不需要输入密码，甚至连手指都不需要动一下就能完成相关的身份认证，短短几年时间，人脸识别的安全认证手段就已经完全取代了密码的方式成为了主流的技术方案，潮流的趋势并不可逆。自2017年iPhone X启用人脸识别以来，Face ID一直是苹果公司引以为傲的一大黑科技，可以瞬间通过3万个特征点来感知用户面部特征。

人脸识别技术被广泛应用了一年多以后的2018年末，人脸伪造技术即AI换脸技术迎来爆发。先是SIGGRAPH（暨国际计算机图形学会）的2018年年会上，当时一个由斯坦福大学、慕尼黑技术大学、巴斯大学等科研究机构联合研发的Deep Video portrait模型横空出世。

该技术不但能让被替换的人脸完全模仿原视频中人物的表情，甚至在放大对比时，两个视频在发丝和睫毛的表现上都能做到极度的精确，后来其论文被发表在了《ACM图形交易》上。

目前在GitHub上，由Deep Video portrait技术衍生而来的开源项目数量不下十几个，其中以FaceSwap、OpenFaceswap等开源项目为代码的换脸技术在GitHub上的更新与讨论十分热烈，后来一名叫做换脸哥的网友在微博上传了一段由杨幂换脸朱茵而主演的《射雕英雄传》，让我们对于人脸识别安全风险给予了足够的重视，从而开始考虑使用人脸、声纹、瞳距等多模态方法来提高准确性。

化妆导致的容貌的显著变化，是妆容迁移不变性模型所要面临的首要问题，而且目前绝大部分数据集当中，也没有给出化妆/未化妆的分类集，这从客观上也增加了妆容迁移问题的实现难度。面部妆容迁移目的是在任意给定的化妆图像中呈现非化妆的面部图像，同时保留面部特征。当前最佳方法是将化妆风格信息从人脸图像中分离出来，实现化妆效果的传递。

华为和复旦的研究人员提出了一种FM 2 u-net也就是形态多分支网络，来完成妆容迁移不变性的工作，从宏观上看FM 2 u-net由两个FM-Net和一个AttM-Net共同组成。整体架构图如下：其中FM-Net由两个堆叠的自动编码器组成，可以通过循环一致的方式来对于化妆区域进行不变性转移，合成具有不同化妆信息的真实面容，进而合成逼真的化妆人脸图像。

生成网络AttM-Net由一个全球分支和三个本地分支组成，将人脸图像进一步分解为四个独立分量，包括整体风格、左眼风格、右眼风格、嘴部风格，可以有效地捕捉互补的整体和细节信息。AttM-Net的架构图如下：AttM-Net不仅可以控制全局化妆风格的程度，还可灵活地调节局部化妆风格的程度。FM 2 u-net不但能瞬间将素颜化上烟熏妆，能从自然风瞬间切换至典型风，可以产生更真实和准确的化妆迁移结果。

目前图片篡改识别与妆容迁移方面的应用，还没有非常完善、高效的技术方案。不过根据CV技术的发展趋势，未来AI“火眼金睛”的练成只是时间问题。甚至笔者畅想，视频网站会推出一键还原场景的功能，让用户突破视频特效，看到演员在绿幕前的表演。