儿时,每次盯着高速转动的汽车车轮时,我总会有一种“错觉”:前行的车轮,肯定是(向前)逆时针转动,可为什么我觉得它在(向后)顺时针转动?难道车轮像迈克尔·杰克逊一样,也玩“太空步”?迈克尔·杰克逊著名的“太空步”,其中的后滑步给人一种明明在行走却向后退的魔幻般视觉。看,你是不是也有同样的“错觉”!至于这个错觉的成因,我们要从憨豆先生唱歌说起~~什么“流畅”音乐,其实都是离散数据。
眼睛的错觉,其实是人眼的“采样频率”太低,导致读取高速变化的信息(数据)时,发生了失真。采样频率是什么?这就得从“数字化”的概念讲起。宏观世界是连续的(模拟信号),即每一时刻都有对应的状态(数值),例如憨豆先生唱歌,只要他不唱鬼畜,那每个时刻就都有他的声音。然而,计算机无法处理模拟信号,只能处理一定单位的离散数据,例如,1Byte。
所以,我们需要每隔一定时间间隔,读取模拟信号的值,即为时间离散化;由于精度的存在,取值也无法连续:例如圆周率3.14159265……,若计算机只能处理2位小数,那圆周率=3.14(通常不进行四舍五入,而是直接舍去后面的数据),即为数值离散化。至此,经过了时间和数值的离散化,连续的模拟信号,就变成了计算机可读取、处理的数字信号,这个过程叫做采样,也被称为数字化。
其中用来取值的时间间隔,叫做采样周期,对应的频率(1/采样周期)就叫采样频率。不难理解,即使是憨豆先生唱歌,20M的HQ版本,也要比5M的流畅版本更“动听”。即采样频率越高(采样点越密),数字化的数据越能还原真实的模拟信号,但与此同时,数据量也就越大,计算机处理的“负担“也越重。那么问题来了:在不失真的前提下,我们希望处理的数据最少(采样周期最长),采样频率的下限怎么定?
在1982年,美国电信工程师H.奈奎斯特提出:在模拟/数字信号的转换过程(ADC)中,采样频率必须大于信号中最高频率的2倍(采样定理,也叫奈奎斯特采样定理)。例如,我们对最简单的单频正弦信号进行采样,当我们用信号周期的1/20(最高频率的20倍)进行采样,很容易还原出这个正弦信号。
而当我们用信号周期的1/2(最高频率的2倍)进行采样时,若我们恰好采到波峰(最高点)和波谷(最低点),就可以得到此正弦信号的幅值以及周期,也可以还原出原始信号。
然而,信号最高频率的2倍往往不够,因为即使恰好采样到波峰和波谷,我们也是无法分辨原始信号究竟是正弦波信号/交流信号,还是三角波信号;另外,还有可能采样到零点处,让我们误以为原始信号是段常数信号/直流信号……因此,在实际工程应用中,采样频率一般取信号最高频率的2.56-4倍,特殊情况下,甚至需要更高倍数。毕竟,数据多了不怕,可以降采样。注意,降采样的约束条件,依旧是奈奎斯特采样定理。
假如,憨豆先生又爱上了《小鲤鱼历险记》的主题曲,我们采样到的数据是“大,大,小/1,3,5,7/do,mi,so,xi”,在相邻两个数据间,用均值作为插值,则可以还原“大,大,中,小,小/1,2,3,4,5,6,7/do,rui,mi,fa,so,la,xi”。可见,插值虽可以减小失真,但无法彻底消除信息的缺失。另外,现实中的插值算法种类繁多,不同的情况下应采用不同的算法。
若不满足奈奎斯特采样定理(采样频率过低),会发生一种在信号处理领域中,不容忽视的失真--混叠。简单来讲,就是数字信号怎么都无法还原出原始信号。混叠分为两类,一类为时域混叠,一类是频域混叠。依旧对正弦信号进行采样,用过低的采样频率进行采样(这里为信号频率的4/3),会出现如下“误会“:可见,当不满足奈奎斯特采样定理时(采样频率<信号最高频率*2),采样信号不仅不能还原原始信号,还可能出现混叠频率。
这种情况即为时域混叠。一个信号不仅可以在时间域表示,例如最近憨豆先生的手机铃声--“燃烧我的卡路里”,它还可以在频率域表示,《卡路里》这首歌是由“do,rui,mi,fa,so,la,xi”这几个基本元素组成,即高低不同的频率。
再做个不恰当的类比,当这几个频率域上的基本元素各自独立,互不影响的情况下,自然可以正常还原;但如果憨豆先生在唱do的同时,又想唱la,唱rui的同时,又想唱so(频谱重叠),这种情况下就形成了频域混叠,那他只能通过B-Box来实现音乐梦了。
而混叠是可以消除的,消除混叠有两种基本途径:首先,可以提高采样频率,还是那句话,信号采样,怕少不怕多;其次,采用抗混叠滤波器,采样前滤除不感兴趣的高频信号,例如录“海豚音”,我们不需要超声波,那就提前滤掉,防止其影响我们真正感兴趣的信号。回到最初的问题,为何人眼观察高速转动的车轮(逆时针),会出现车轮反向(顺时针)的错觉呢?就是因为人眼对其进行采样时,时域上发生了混叠。
将轮胎逆时针、等间隔的四个点标为“1”、“2”、“3”、“4”,若我们只盯最高点,实际经过最高点的顺序为“1-2-3-4-1-……”,即逆时针。
若人眼的采样周期,为车轮转动周期T的3/4,即采样频率为转动频率的4/3(不满足奈奎斯特采样定理),则我们第一次采样到1,经过3T/4后,第二次采样到4,再经过3T/4后,第三次采样到3,……,最终,我们看到的是顺序为“1-4-3-2-1-……”,即顺时针。
若用本文中的正弦信号对其建模,即为:实际上,人眼刷新(采样)频率大约为24帧/秒,因此,只要车轮的转动频率大于12圈/秒时,人眼就会出现“反向”错觉。当然,此原理也可以被我们正向利用:当眼前闪过图像的速度大于12张(帧)/秒,就会出现视觉暂留现象,即认为画面是连贯的,这就是“视频”的底层原理。日漫最高为24帧,美漫一般为30帧,因此美漫给人“快“的感觉。
若仔细观察某些低成本的日漫,你会发现人物在走路时,没有脚部、甚至膝盖以下的细节:因为只用12帧,做不出这类细节。