增强现实技术为什么引起关注
随着近日,某家增强现实技术(Augmented Reality, AR)公司融资14亿美元,AR再度成为科技领域内一个追捧热点。其中到底藏着什么样的巨大前景这么被人们看重呢?
在说清楚这个秘密之前,我们先得区分另一个类似的技术——虚拟现实技术(Virtual Reality,VR)。两者的技术可能有重叠的部分,但应用场景则不同。
简单来说,假如有一天,你赶不上演唱会只能看直播,但不想放弃现场体验怎么办?没关系,戴上VR眼镜,你在家里就能如身临其境般感受最逼真的视觉体验。VR眼镜是不透明的,用于显示完全虚拟的世界,把物理世界完全挡住,即使坐在家
里,你也能感到去大溪地“潜水”。
而AR眼镜通常是透明的,让你能看到现实世界的景象,同时会由眼镜虚拟出一些图像叠加在上面。
总的来说,这些设备是计算机的必然发展趋势。自2007年iPhone面世以来,智能手机发展迅猛。用户随时随地带着它,各项使用数据毫无悬念地都在超越PC端。所以,人机交互界面的未来主要在于移动。但现在的手机局限在于,
(1)既然要便于携带屏幕就做得小,屏幕小了某些功能就得受限;
(2)显示屏幕是平面也就是二维(2D)的,而真实世界是三维(3D)的。
未来的透明AR眼镜有望实现大突破,既能让用户随身携带,又能在眼前显示超大屏幕,还能把以假乱真的3D内容渲染到人所看到的真实世界里。想象你坐在教室里自习,讲台上的老师看起来真实无比,但其实他就是在你的眼镜上虚拟出来的人。这样的眼镜大概不会完全取代手机,但毫无疑问潜力无穷。
跟VR比较,AR的应用场景更广阔。毕竟,我们一般不会戴着VR头盔在大街上逛吧。本质上,AR是VR的超集,镜片前面一挡就成了VR。
戴眼镜好麻烦,能不能裸视?
直接像《星球大战》一样,在空气中显示全息图(Holography)行不行?这样的美好愿景,有一天也许能做成,但近期看离实用还早。
现在有一些大学实验室的确在研究裸眼光场显示器(Light Field Display),但需要很复杂笨重昂贵的设备,还必须先安置才能使用。相对这些,做成眼镜的效果要好得多。轻便的AR眼镜将是移动人机交互界面上,也是计算机发展的重大革新。
在VR头盔前加个摄像头也能成AR,为什么非要做透明?
说起来AR有两种,一种是前面所说的透明AR(Optical See-through),人透过镜片能直接看到现实世界。另一种就是“视频叠加”(Video See-through; Video Overlay)——通过摄像头捕捉现实世界图景,然后以视频的方式呈现给用户,同时其中再渲染一些画面。事实上,现在手机和平板上已经出现了很多Video Overlay的应用,比如看星空,求翻译,选家具等。
那为什么不用VR头盔加摄像头实现这种AR呢?事实上,现在很多VR头盔都在试探这种做法。不过,它和透明AR相比各有优劣。其优势在于,用视频实现的虚拟和现实的叠加(overlay)要比透明AR简单得多。这也是为什么它已经开始在移动端商用的原因。
但劣势也可想而知,用户看到的毕竟只是一个2D视频,质量跟眼睛直接看到的世界差距很大。而且视频从采集到显示总是有延迟的,如果跟体感信号不一致的话会造成身体不适。所以不管怎样,还是会有公司追求更好的产品体验,前仆后继地去做透明AR的。
光凭这些就能融到14亿美金?
前面我们说了AR技术应用潜力,这只是资本看重的一方面,同时还有技术,创始人,团队的原因。
其实,该AR的核心技术来自华盛顿大学前研究员Brian Schowengerdt。他导师Eric Seibel是光纤扫描内窥镜(Scanning Fiber Endoscope)的专家。大家都知道,内窥镜就是医生们做手术时用来体内成像的,本质是个微小摄像头。Brian很聪明地逆转光路,把这个技术用到了显示上。这样通过极细的光纤(如左图所示)用激光就可以打出彩色的图像。
这个技术十几年前就发表了,后来又不断改进,生成了一堆专利。该AR技术在很大程度上是基于Brian的这些专利。
那这种技术为什么重要呢?我们后面留成一个专门的问题讲。然而光技术牛是不够的,要想做好AR眼镜,可想而知是需要软件硬件都得有重大突破。国际大公司可能有财力去做这个事,为什么他们认为一个初创小企业能做成?我觉得,其团队创始人Rony Abovitz起的作用非常大。
他曾经在机器人手术(Robotic Surgery)上创业,做骨科手术精准定位。2004年创建的公司,2008年就上市了,后来在2013年以16.5亿美元被并购。听起来就是很牛,这种背景当然拉投资比较容易。
除了创始人兼CEO很牛,其团队也不一般,计算机视觉部分更有不少业内大牛。合作的团队更有在好莱坞给电影做特效的。而公司当年用来拉投资用的概念视频就像一个微型电影一样。
新技术核心:光场显示技术为什么对AR很重要
首先,光场显示技术基于极细的光纤,可以让眼镜做得轻薄。但更重要的是,Brian证明,这种光纤技术不仅可以投射出一个2D图片,还能显示出一个光场(Light Field)。
目前利用眼镜实现的3D主要可分成两种技术框架:Stereoscopic(中文翻译成“立体”,但其实不够准确),和Light Field(光场)。
Stereoscopic眼镜早已商化,比如所有3D影院里用的,还有市面上几乎所有AR和VR眼镜/原型。而Light Field还只在实验室里有雏形。
什么是Stereoscopic 3D?为什么它不够好?又什么新技术核心是Light Field呢?
Stereoscopic 3D是假3D
图像比2D图片多了一个维度,这个维度就是景深(depth),其在感官上有明显的区别(只有少数人有双盲症不能看到)。人眼感知景深有很多机制,包括单眼(monocular)和双眼(binocular)机制。
单眼能感知的景深信号有很多种,比如:一个东西遮挡了另一个(occlusion),熟悉的物体的大小(relative size/height),物体移动的变化(motion parallax)——远的物体变化慢、近的物体变化快。所以在此基础上,人类双眼的景深信号也非常强:两只眼睛看到同一个场景会有细微差别,这让大脑能通过三角计算(triangulation)来得到物体景深。
人类在远古时就有这样的感知,帮助他们很好地判断对面的老虎或者鹿到底离自己有多远。
Stereoscopic 3D也就是利用这个原理给双眼分别显示不同的图片(如下图),它们很相似,只在水平方向上有细微差别。而这两张图片拍摄的时候,就是用两个并排的相机模拟人眼的位置拍的。实际上,现在的3D电影也都是基于这个原理。通过一些光学技术把细微差别的画面分别传入左右双眼,以形成立体的感知。
但这样的Stereoscopic 3D有些问题。简单来说,它会引起用户身体不适如头晕、恶心等。为什么呢?这又涉及到另一个视觉原理。
当我们在看一个现实世界中的物体时,眼睛其实有两种自然反应:
(1) 聚焦(Accommodation/Focus):眼睛的晶状体就像一个凸透镜,它会调节凸度来让那个物体在咱们视网膜上清楚成像。
(2) 会聚(Convergence):在每只眼睛聚焦的同时,两只眼球还会有旋转运动来一起指向那个物体。
很自然地,这两种反射运动在神经上是联接的(Neurally Coupled),也就是说任意一种运动会自动引发另一种运动。这也意味着,在人眼看真实物体的时候,聚焦和会聚的距离总是相等的(Vergence Distance = Accommodation Distance,参见下图A)。
那么Stereoscopic 3D的问题就来了。因为Stereoscopic屏幕到眼的投射距离总是固定的,也就是聚焦不变,但对图片的感知会让眼睛会聚在不同的距离以产生景深3D效果(见上图B)。所以,这两种距离经常是不一致的,以至于造成这两种神经相连的运动强行分离(Neurally Decoupled)。
从另一个角度讲,在自然世界里,当人眼聚焦并会聚到一个物体时,别的距离的物体应该都是模糊的(上图C)。而在Stereoscopic 3D里,不管人眼聚焦到哪儿,别的距离的物体成像都是清楚的(上图D)。
这些都不符合自然界人眼的规律,因此大脑会产生混乱,长时间就会引起恶心晕眩等症状。所以Stereoscopic其实是用了一个小伎俩让人能看到3D效果,但它并不是真3D。
光场(Light Field)是真3D
光场显示跟Stereoscopic 3D比有很大不同,它能让人眼聚焦到不同的距离,从而和会聚的距离保持一致。这是最符合人眼观察自然世界规律的做法,因此被称为true-3D。但要实现这样的光场显示,并不是那么简单。现在主要是两种方法:空间复用(Space Multiplexing)和时间复用(Time Multiplexing)。
“空间复用”,就是把一个像素当几个像素用,来实现不同的聚焦距离。这个方法最大的问题就是分辨率大打折扣。我曾经试戴过,基本就是雾里看花。“时间复用”,就是用高速原件来快速产生不同的聚焦距离,让人眼以为它们是同时产生的,这样分辨率不会损失。大家知道人眼的速度感知是有限的,很多显示器都是60Hz的,因为人眼能分辨的极限值一般就是60Hz。
这意味着什么呢,如果利用360Hz的高速显示器,就可以实现6个不同的聚焦距离。而有研究表明用6个聚焦距离加上一种线性混合(Linear Blending)的渲染算法就基本能实现从约30厘米到无穷远让人眼自然对焦。
而Brian的高速激光光纤扫描(Scanning Fiber)技术就是一种时间复用的办法。他当年先试过只用一根光纤扫描不同聚焦距离,这样做明显对显示速度要求太高,后来用一个光纤束,比如16根,每个光纤有一点位置差,然后同时扫描得到不同聚焦距离。
这样的光场受现实的局限,肯定不可能是连续的,都是被采样的(downsampled)。但是,即使是这样的光场投射到眼睛里也在理论上跟真实世界物体光线进入眼睛是一个道理,因此可以实现true-3D。这也是为什么光场显示技术重要的原因。
透明AR眼镜还面临哪些挑战
1. 显示
首先能实现近眼光场显示就很难,古老的Stereoscopic 3D方法使用户戴长了就会眼困头晕。而光场显示技术理论上成立,现实中还有很多问题要解决。比如:
系统大小:据报道都还是像一个冰箱一样大的,离可穿戴还有很长的路要走。
光场采样:既然是采样就一定有损失,比如对比度清晰度上,如何才能最优采样?聚焦和会聚(Accommodation-vergence Matching):即便聚焦距离对了,也要保证会聚距离始终与其保持一致。
Magic Leap现在的demo视频还只是从单眼摄制的,还没有证据表明他们很好地解决了双眼问题。
室外显示:现在业内demo都是室内的。当用户在室外时,太阳光强度比显示光高几个数量级。至少镜片需要有自动调光的技术。
捕捉内容:虽然现在可以用计算机图形来做demo,但以后的应用一定会需要相机采集的内容,而光场的拍摄本身还有很多问题要解决。
散热:是一个容易被忽视的问题。当年Google Glass出来的时候有人说用着用着脸就像要烧起来了。
2. 镜片
近眼显示有两个关键部件:显示器和镜片。现在大部分的AR眼镜镜片都是基于分光镜(Beamsplitter Prism)。
如图左,简单的分光镜就是45度角,把显示器产生的光从眼镜框反射进人眼,也同时让现实世界的光透进来。这样做简单便宜,但是镜片厚。理想的状态下,不仅要做到视角(Field-of-View)大,还要轻薄,透光性好,在折射/反射显示光的时候也要尽量保持光的属性并做到尽量小的光损失。
3. 视角(FoV)和分辨率(Resolution)
视角直接决定了用户体验。现在的很多AR眼镜视角还在20°-40°之间,曾有不少试戴了的记者都对它的视角表示失望。而人眼的横向视角双眼差不多有200°,纵向有130°。视角大意味着总的分辨率也要很大才能覆盖,8K*8K才会比较理想。
4. 遮挡(Occlusion)
前面说到过单眼的景深感知有一个很重要的信号就是物体之间的遮挡。在用透明AR眼镜时,一个关键问题就是虚拟物体和现实物体之间的遮挡怎么实现。如果是现实物体在前面,虚拟物体在后面,还相对比较好办,就是要自动探测现实物体的距离,再计算出虚拟物体哪些部位需要遮挡从而不渲染。但是如果反过来,虚拟物体需要遮挡现实物体,就没那么直接了,因为理论上需要把现实物体的光从眼镜上选择性地滤掉。
从现有的样机上看,在虚拟物体明亮时,它本身的亮度会自然遮挡后面的真实物体,但当虚拟物体比较暗时,就会有有所谓的“鬼影效果”(Ghost Effect),结果又会让大脑产生混乱。
如果想实现完全正确的遮挡效果,只能在镜片上做实时的像素级的滤光机制(Per-pixel Shutter),但现在的技术都还不成熟。
Magic Leap:以增强现实展示科幻世界
5. 渲染黑色
透明AR眼镜现在还没办法渲染黑色。因为它说到底是虚拟光和自然光的叠加。如果画黑色,用户是看不到的,只会看到后面的背景真实物体的光。类似的暗色都有这个问题。
6. 延迟透明AR眼镜还有一个很大的挑战就是延迟。把虚拟物体叠加到真实物体上,比如放一个虚拟水杯到一个真实桌子上,涉及到一系列计算:探测真实物体→计算它的空间位置和方向→计算叠加位置→渲染虚拟物体等。
这一切都必须在一眨眼内发生,让用户感觉不到延迟。比如我们的头可能是一直在动的,随着我们头动,我们看到的那个虚拟水杯应该在桌上原来的位置不动才对。而如果系统延迟过大,我们看到的那个水杯的位置可能总是不对,大脑又要混乱了。
这对透明AR挑战尤其大,因为我们是直接看到真实世界的,几乎没有任何延迟,而虚拟物体的渲染得能跟上这个速度才显得自然。在Video Overlay里,就没有这个问题,因为我们看到的真实世界的视频已经是延迟的了,这样在上面的物体叠加就比较容易跟它保持同步。
7. 激光
有技术专利是用激光直接打到人眼里,可以解决许多光学问题。但安全性方面还没有确切的科学证据。所以用户接受度是个问题,很多人估计一听到这个就望而却步了。
说了这么多,这下一代移动人机交互界面到底什么时候能做成呢?我个人感觉要做成人民群众喜闻乐见的版本至少要5年时间,也许更长。以上列出的这些挑战,每一个都还需要很多努力才能解决。目前它们很多都还不到量变,只是需要优化的阶段,需要大的质的飞跃。路漫漫而修远兮,可既然这是计算机发展的必然方向,我们就拭目以待吧。
荐读:
顾险峰教授的Magic Leap核心技术揭秘:http://blog.sciencenet.cn/blog-2472277-954754.html
知乎问答:Magic Leap和微软的HoloLens相比有哪些异同点 https://www.zhihu.com/question/36921637参考文献:
[1] Brian T. Schowengerdt et al., 3D Displays using Scanning Laser Projection, SID Symposium Digest of Technical Papers Volume 43, Issue 1, pages 640–643, June 2012.
[2] Brian T. Schowengerdt et al., True Three-Dimensional Displays that Allow Viewers to Dynamically Shift Accommodation, Bringing Objects Displayed at Different Viewing Distances Into and Out of Focus, CYBERPSYCHOLOGY & BEHAVIOR Volume 7, Number 6, 2004.
[3] Xu Liu and Haifeng Li, The Progress of Light-Field 3-D Displays, Information Display, 2014.
[4] David M. Hoffman et al., Vergence–accommodation conflicts hinder visual performance and cause visual fatigue, J. Vis. 2010.
[5] K. J. MacKenzie, D. M. Hoffman, and S. J. Watt, Accommodation to Multiple-Focal-Plane Displays: Implications for Improving Stereoscopic Displays and for Accommodation Control, Journal of Vision(2010).