“这里有四组数据,每组数据都不一样,当我们用通常的统计方法来看这些数据的时候,它们的方差、相关性系统值都完全一样,看不出任何差别。但是,当我们用可视化方法把这些数据画出来时,就能一眼发现它们的不同,特别是第四组数据,它其实是一只可爱的小恐龙。”单桂华,中国科学院计算机网络信息中心研究员,可视化是什么?其实可视化离我们很近,比如堪称年度恐怖大片的支付宝账单,年年刷爆朋友圈,大家可能都被吓到过。
这是因为可视化太直观了,它们把数据转化为形象的图表,让人们一目了然、快速地获取信息,可以追踪自己的饮食和消费习惯,于是人们看完就想剁手。各国GDP数据当然还可以复杂一些。这是大家熟悉的excel数据表,它记录的是世界银行统计的各国GDP的历史数据。密密麻麻的几页,给我们一天的时间也很难发现里面有什么规律。那我们把它可视化出来看看。可以看到各个国家不同年度的GDP值和排序变化,美国遥遥领先。
总体来说,各个国家的GDP值都在增长,增长的快慢决定其排名的变化。中国上下徘徊几次后,从1990年开始就义无反顾往上窜,势头很猛,直到2010年稳定在第二。我们还可以跟这个图进行交互,如果很想看看法国和中国,我们就可以选中它们,重点看它们的变化和相互关系,可以看到中国在哪一年超越了法国。这就是可视化,把隐藏在数据中的规律化作直观的图像,让数据开口讲故事。这里用到的是最简单的可视化元素——柱状图。
数据的表现形式——统计图说到柱状图,我们不得不提一个重要的人物——威廉·普莱费尔,他是苏格兰一位非常有名的政治经济学家,两百多年前他就意识到一个现象:那些身居高位、业务繁忙的商人只需要关注一些统计结果,根本不需要大费周折去研究具体细节。于是他设计出世界上第一个柱状图。世界上第一台计算机是1946年才问世,所以这个柱状图是纯手工绘制。各国进出口贸易额上图展示了苏格兰与其它各国的进出口贸易额。
17年后,他又再接再厉,创造了世界第一个饼图,曲线图。土耳其帝国在各州土地面积这个饼图展示了土耳其帝国当时在非洲、欧洲、亚洲所占领的土地面积。英国与北美进出口贸易差这个曲线图展示的是英国与北美的进出口贸易差。虽然这些是200年前绘制的图表,但这些表现形式我们到现在还经常使用,可见这位普莱费尔的伟大。玫瑰图这张图很像盛开的玫瑰,它有一个美丽的名字——玫瑰图。
故事发生在1855年,克里米亚战争期间,英军伤亡惨重,当时一个叫南丁格尔的战地护士,她通过搜集数据,发现很大部分死亡原因其实并非是“战死沙场”,而是因为在战场外感染了疾病,或是在战场上受伤,却没有得到适当的护理。于是她设计了这个玫瑰图。南丁格尔图/玫瑰图:战争死亡统计图把圆分成12分,代表十二个月。蓝色面积表示死于感染的士兵,红色表示死于战场的重伤,灰色表示其它原因。
很明显,蓝色区域的面积明显远大于其他区域,这张图一目了然地揭示了战士死亡的真正原因。南丁格尔把这份结果呈现给军队和伊丽莎白女王,促成了世界第一座战地医院的建立。也正因为有了战地医院及时的医治与护理,死亡率从42%减低到2.2%,可以说这张图挽救了很多战士的生命,这也足以证明可视化对信息传递的重要性。无论是柱状图饼图还是曲线图玫瑰图,从本质上来说,都是统计结果的可视化。
统计对分析当然很重要,但是光有统计是不够的。图中有四组数据,每组数据都不一样。当我们用通常的统计方法来看这个数据的时候发现,它x轴的均值y轴均值,方差、相关性系统值都完全一样,看不出任何差别,很多特征信息都丢失了。看来统计方法是不行了,那我们用更高级的可视化方法试一下。我们把这些数据画出来,就能一眼发现它们的不同,有九个点状的、有X形的、有五角星形状的,特别是第四组是一只可爱的恐龙。
很有意思,可视化通过图像迅速吸收、消化数据并把特征信息形象的传递给我们。可是当数据越来越大,故事越来越复杂,怎么画数据就是一个难题了。如果我们像刚才画恐龙那样把数据直接画出来,问题又来了,什么也看不见,所以我们需要研究新的可视化算法。“体绘制技术”可以帮我们穿透这团迷雾。通过这种方法可以清晰地看到它是一只手,还可以透过皮肤,看到血管与骨骼。
可视化的实际应用宇宙演化模拟数据这是一个天文学家给我们的140亿年宇宙演化的模拟数据,大概有90TB的数据量,我们翻一年也翻不完。这么大的数据,这么复杂的故事,需要用到超级计算机和各种复杂的可视化算法,才能把它里面隐藏的特征信息形象的表达出来。天文学家只能把它们画成简单能量谱的曲线。当我们把它可视化出来的时候,跟我们合作的天文学家震惊了,这是他们第一次可以直观地看到自己模拟的整个宇宙及其动态演化。
宇宙结构模拟上图是这个数据的可视化结果,就是我们现在宇宙的样子。这些星系经历了140亿年的穿行,形成现在的各种星系团结构,这些星团之间有一些丝状结构的连接在一起,也许左下角飞过的小亮点就是我们的地球。这个是最大的星系团,是我们银河系的一万倍,我们可以清晰地看到它的内部层次,它通过140亿年不断吞噬合并其它星系而形成了现在这样一个庞大的天体结构。
星系演化模拟图天文学家还想看看这些大星系团是怎么一步一步演化而来的。于是我们可以挑出天文学家感兴趣的局部的区域。可以看到,一开始粒子均匀分布,后来在引力的作用下,逐渐成各种不同的小团,大团直接吞噬小团,两个相当的大团相互碰撞,合并最终形成一个超大的星系团。星系演化模拟图天文学家还需要进一步分析其中的一个小的星系团,想看看它们在这场大的演化运动中,怎么由小小的几个星系团合并。
我们可以看到,刚开始,慢慢形成几个小团,然后合并,之后几度险些被冲散,最终有惊无险顽强地合并在一起。有了可视化,天文学家不费吹灰之力,就有了一台指哪打哪的望远镜,而且还可以穿越历史。当然要实现这些,我们突破了一系列关键技术,从数据组织与压缩、并行与GPU加速绘制、色调映射、所见即所得的时序分析及特征结构挖掘等一系列算法来做支撑。黑洞吸积盘流场可视化黑洞也是天文学家特别关心的问题。
我们都知道黑洞无限制吞噬吸收周围的物质,实际上在这个过程中也会产生高速的喷流。2013年欧洲XMM牛顿太空望远镜发现了黑洞会喷射重金属流的现象。这些现象的背后的具体机制是个不解之谜,也是天文界的重大科学问题。如果想要研究这个问题,首先需要用计算机来模拟这个现象。中科院上海天文台的科学家们想要进一步研究它的机理。但是模拟的结果对不对,模型算法合不合理,没有标准去验证。
同时,对于粒子是怎么进入黑洞,他们内部也有不同的看法。所以他们找到我们,问我们有没有什么办法让他们直观看看数据,来验证他们的方法。我们为他们定制了这样一个可视化的工具,帮助他们直观地分析数据,看看物质是怎么进入黑洞,以什么样的轨迹进入黑洞,有没有物质喷射出来,如何喷射出来。采用轨迹线的方法,手动在他们感兴趣的区域撒点,就像我们在河里撒一些泡沫以观察河流的缓急。
我们可以清楚到看到粒子是怎么运动的,在哪儿开始被吞噬,正如科学家期待的那样,这里确实有物质喷出。洋流可视化我们都知道洋流对海洋航运,气候、地理环境都有很重要的影响。可是面对茫茫的大海,观测资料很少,科学家迫切需要清楚地看到整个海洋的洋流情况。直到有了卫星,有了超级计算机之后,我们才得到了更准确高精度的模拟数据。
将这些数据可视化可以让科学家直观地看到上图的画面,这对科学家来说是非常关键的,因为他们能清楚地看到洋流的速度、方向、温度变化情况。比如说图中这些涡和流,它们的相互作用但对科学家来说意义重大。通过可视化我们甚至还可以观测海洋污染,比如石油泄漏,潜水艇可以更加安全地航行。中国局部地形图我们经常遇到雾霾天,可能你们没有从这个角度来看过雾霾。
这是中国局部地形图,红色代表北京,黄色代表武汉,中间就是雾霾,不同的颜色代表不同浓度,底层像河流一样的代表大气的风场。通过这样的可视化,科学家从这里可以看到雾霾是怎么在风场和地理环境的影响下,从北京传输到武汉的。这对他们理解雾霾的传输过程很重要,可以更好地揭示不同地区间雾霾发生的相互关系。粒子加速模拟图我们不仅帮助大气学家来寻找雾霾来源,也在辅助物理学家去寻找清洁能源。
核能就是一种清洁能源,但是核废料却对环境有污染,处理核废料,国际上最有效的方法,就是利用ADS嬗变系统。它可以用核废料发电,还能解决核辐射问题。中科院近代物理所牵头研究这一技术,以上是他们委托我们做的嬗变系统的可视化。这些粒子正在直接加速器上冲刺,下方条状图显示,一开始,粒子团变化巨大,在加速过程中慢慢趋向稳定。
管道中,红色和蓝色的椎体是不同的磁极,这些磁极的强度与分布,还有粒子的初始速度,都是可以调节的。科学家可以直观地看到这些数值调节以后的效果。目前,该研究工作已成功结题,正转化为国家大科学装置,准备开工建设。高铁可视化最后说说大家都熟悉的高铁。其实,高铁投入生产之前,科学家需要做很多工作。比如,为了以最少能量获取最高的速度,我们需要让尾部的涡旋尽可能地小,这样行驶过程中的阻力更小。
我们要从高铁尾部产生的海量流线里,帮助科学家找到最感兴趣的尾部涡旋,也就是大家看到视频当中运动的曲线。在这个过程中,科学家通过可视化,可以看到不同参数情况下涡旋的大小变化,就可以辅助高铁的设计优化。未来的可视化会是什么样子呢?可视化也许会脱离屏幕的限制,真正走到我们面前,或许你一个动作,一个眼神,就可以进行可视化的互动,就跟现在科幻电影里的场景一样,我相信,这一天很快就会到来。