菲尔兹奖得主芒福德为三维人脸识别和配准献上神助攻

作者: 顾险峰

来源: 赛先生

发布日期: 2016-12-29 07:10:25

本文讨论了三维人脸曲面识别和配准问题,强调了微分几何方法和机器学习方法在解决这些问题中的互补作用。菲尔兹奖得主芒福德的模空间理论为三维人脸曲面配准提供了强有力的模型,而机器学习方法则可能在未来的表情分析和概率密度获取中发挥重要作用。

三维人脸曲面研究一直是计算机视觉的基本问题之一。通常情况下,对于人类经过生物进化而习得的先天能力,机器学习可以胜任或者超过人类;对于人类经过科学积累而建立的抽象理论体系,机器学习目前依然无法和人类匹敌。三维人脸识别和三维人脸曲面配准这两个计算机视觉领域的经典问题,就给出了这样的例子。

人脸识别问题是给定一张人脸曲面,判定此人的身份;三维人脸曲面配准问题是给定两张人脸曲面,在人脸间找出点点对应关系,也就是求出它们之间的一个光滑双射(微分同胚)。三维人脸曲面配准的技术更为精细,它要求给出逐点对应,特征点对齐,全局某种形状畸变最小,因而既考虑局部信息,又牵扯整体几何。

相对于基于图像视频的人脸识别,三维人脸识别对于光照条件的变化、不同表情的变换、化妆方式的变化、头部姿态的变化更加鲁棒,识别性能有所提升。三维人脸识别可以用监督学习达到比人类更为精准的地步。但是,对于三维人脸曲面配准问题,目前机器学习的方法无法直接奏效。

首先,人类对于两张人脸曲面间的特征点和它们之间的对应关系,具有良好的直觉,可以毫不费力地标注出来;但是对于曲面间的映射,或者稠密点之间的对应关系,并没有明确的直觉,手工标注非常困难。因此,数据准备工作几乎无法实现。

相反地,微分几何方法为曲面间的配准问题提供了强有力的模型,特别是菲尔兹奖得主、代数几何泰斗、计算机视觉大师芒福德(David Mumford)早期的研究领域——模空间——非常适用于这一问题的研究。芒福德当年在哈佛上本科的时候,在扎里斯基(Zaraski)的代数几何课上,产生了奇思妙想,最终催生了他得菲尔兹奖的工作。但这个想法不太容易解释,即便是初浅地描述也非常抽象。

给定一张人脸曲面,我们通常只考虑皮肤构成的部分,去除眼睛和嘴的内部,同时将解剖意义下的特征点(例如眼角、嘴角、鼻尖)标注出来。因此人脸曲面实际上是带边界和特征点的拓扑复杂的曲面。给定两张这样的曲面,给定边界之间和特征点之间的对应关系,则我们所求的映射应该满足这些预定的对应关系。数学上,这意味着我们固定了曲面间映射的同伦类。固定一张拓扑曲面,考虑曲面上所有的黎曼度量。

两个度量被称为是共形等价的,如果存在一个保角的微分同胚,数学上这意味着存在一个标量函数,使得微分同胚诱导的拉回度量和初始度量之间满足等式。图1给出了人脸曲面到平面圆盘之间的一个保角变换,保角变换亦被称为是共形变换。两个度量彼此等价,被记为,度量的共形等价类被记为。那么,曲面上所有黎曼度量的共形等价类构成的空间被称为是曲面的模空间(Moduli Space)。

一般情况下,人脸表情变化会带来黎曼度量的变化,这种变化不是保角变换。图2给出了一个实例。我们将带边界的人脸曲面保角地映到平面的多孔环带上,多孔环带的内圆半径和圆心的构型是曲面的共形不变量。两张曲面的共形不变量不同,因此不存在共形变换。因此,这两张脸在模空间中代表不同的点。模空间的定义具有两级抽象,首先将黎曼度量分成共形等价类,这是一级抽象;然后,所有的共形等价类构成了模空间,这是第二级抽象。

直观而言,模空间涵盖了所有可能的形状,其本身是带有奇异点的黎曼流形,存在黎曼度量,模空间中任意两点之间可以定义距离,也可以定义测地线。换言之,任意两张带度量的人脸曲面可以被视作是模空间中的两个点,可以用模空间的度量测量它们的相似程度;也可以计算它们之间在模空间内的测地线,就是它们之间某种微分同胚,使得角度畸变最小。假定我们给定一张人脸曲面,脸上我们用机器学习方法求得了特征点,如图3所示。

我们在每个特征点处戳一个小洞,得到了带有空洞的曲面。带空洞的曲面上有全纯二次微分,它们构成了所有全纯二次微分空间的一个基底。更进一步,对每一个特征点我们可以选取一个相应的全纯二次微分。给定一个Beltrami微分,对应的微分同胚是, 那么经过重整化后(normalization),特征点位置的变化率为:。对此,老顾师兄刘克峰给出了精辟的概括:全纯二次微分空间是模空间的余切空间。一针见血,一语中的。

通过以上讨论可见,模空间理论给出了三维人脸曲面配准问题的理论模型,或者更为宽泛的求解一般大形变曲面间的微分同胚问题的理论模型。其形状空间,这一空间的黎曼度量,映射空间的切空间、余切空间、测地距离、测地线,等黎曼几何概念明晰,最优映射的存在性和唯一性具有理论保证。迄今为止,我们只应用到了模空间的黎曼几何性质。

其实,芒福德的最令人惊异的贡献在于:他看出了模空间实际上是一个代数流形,模空间可以表示成多项式方程组的零点集合。模空间的代数性质会为曲面配准问题带来哪些更为深刻的指导作用,这是一个饶有兴味的未知问题。虽然三维人脸配准问题的近期解决方案依赖于微分几何方法,但是从长远来看,机器学习的方法不可或缺。模空间理论给出了所有可能出现的曲面形状,和所有可能的微分同胚。

但是所有真实的人脸,和真正能够物理上实现的表情变化应该只是其中的极小部分,有可能是一个子流形。我们需要一个定义在模空间上的概率密度来刻画物理可实现的人脸曲面和人类表情,更为精细地,我们需要得到正常人脸表情和反常表情(例如自闭症患者的表情)的概率描述。这些概率密度的获取一方面依赖于物理建模和力学模拟,但是更为切实可行的方法是应用机器学习来获取。

综上所述,我们看到对于三维人脸曲面识别、配准、表情分析而言,微分几何方法和机器学习方法,各有千秋,相辅相成!

UUID: 9afc5af8-d7a0-45a7-9db7-e4926e1007df

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/赛先生公众号-pdf2txt/2016/赛先生_2016-12-29_菲尔兹奖得主芒福德为三维人脸识别和配准献上神助攻.txt

是否为广告: 否

处理费用: 0.0081 元