本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第十一回。在这一回中,陈宗周先生将为我们解密数据科学。数据科学不但能穿透历史看到过去,也能高屋建瓴,远望未来。这门年轻的科学,是如何改变世界的?
2017年3月,全球金融中心华尔街,一场没有硝烟的大战打响。交战双方争夺的,是一件没有任何重量却价值无穷的虚拟物品——数据。
参战的一方是华尔街金融巨头们的联合体,包括摩根大通、花旗、高盛和电子交易商Virtu Financial、KCG Holdings Inc等等,而另一方则是同样赫赫有名的纽约证券交易所(简称纽交所)。这场被称为“华尔街数据大争夺”的宫斗戏上演,是因为金融巨头要顽强阻击纽交所进一步控制交易市场的数据。
争议围绕名为“纽约证券交易所主用户协议”的新合约展开,争议焦点是:券商在买卖股票时提交给交易所的数据,到底归谁所有?新合约规定纽交所享有这些数据的所有权,而券商和大型交易公司则大声喊冤,认为数据由他们产生,理所当然属于他们。纽交所与金融巨头们围绕数据所有权已经缠斗了很久,券商抱怨说,像纽交所这样的交易所,直到2006年还是一个非营利组织,变成了营利性公司后,在增加数据费用上变得十分激进。
历史研究,一直是历史学家的专属花园。现在,AI科学家闯了进来。英国布里斯托大学科学家内罗·克里斯蒂亚尼尼(Nello Cristianini)与历史学家合作,用AI的数据挖掘技术,从旧报纸堆里发现了可能比历史书更准确的英国现代史。没有一位历史学家能够阅读跨越一个多世纪英国历史的数千万份报纸,而AI可以。
它积累了1800年至1950年间的3500万份英国地区新闻报道数据(占该时期英国地区报刊总量的14%),分析了286亿个词汇。
数据科学不但能穿透历史看到过去,也能高屋建瓴,远望未来。我们在本专栏第一回看到的连续四次正确预测美国大选结果的MogAI智能系统,依靠的同样是数据分析。而2009年H1N1甲型流感暴发前几周,Google通过对用户网上搜索记录的分析,作出了比疾控中心更及时的疫情预测,准确性与官方数据相差无几。这也是数据分析预测的结果。
数据科学(Data Science)是一门年轻但发展非常迅猛的学科。数据、数据库、数据分析、数据处理这些概念很早就出现了,但直到1996年,在国际分类协会联盟(IFCS)在日本神户举行的双年会上,数据科学这个术语才首次出现在会议文件的标题中。这一年,被看作是数据科学诞生之年。之后,在统计等学科领域里从事数据工作的人开始被改称为数据科学家,数据科学快速发展。
数据热潮的掀起,有一个深刻的背景,那就是,人类社会的数据积累量,已经达到非常惊人的程度,大规模和深度数据应用,已经成为必需和可能。
随着互联网、移动互联网、物联网的发展,天罗地网般遍布世界每个角落的信息设备如电脑、手机、传感器、照相机、摄像头、麦克风、射频识别(RFID)读取器、汽车电子设备等等,每时每刻都在产生几乎是无穷无尽的数据,到2012年,全球每天会产生2.5EB(B,Byte,即字节)数据。
数据可视化,是数据科学创造的神奇之一,近些年来,数据可视化异军突起,受到高度关注。数据可视化(Data Visualization)使人们不再面对枯燥的数据,而是以直观的、交互式的甚至有美感的方式,从不同的维度看到数据及其结构关系,这样,极大提升了数据应用的价值。电子地图,是数据可视化的一个典型例子。数据库里的地理信息数据,通过可视化技术,在我们面前呈现出一幅直观生动的地图。
数据的魔力正在重塑世界,但硬币的另一面也显露出来。数据安全事件频发,数据泄露往往造成严重恶果,已经成为社会一大公害。《纽约时报》曾经有这样的比喻,与400年前出现的观察和测量微小事物的显微镜相比,我们现在正面对一台“测量数据”的显微镜。这台显微镜无比巨大而精细,我们的一切行为与隐私,都在这台数据显微镜下暴露无遗。
问题是,除了合法的观看者之外,还有大量善意和恶意的非法观看者,时时刻刻想偷窥这台数据显微镜。