观点丨大数据与大科学

最近去武汉参加第八届全国测试学术会议，包括硬件测试、软件测试，碰到许多老朋友和新朋友，大家议论了许多。我和大家交流在CACM本月号上看到的“Big data meets big science”，也颇有感触。斗胆写出来，供大家讨论。语言难免过激，欢迎吐槽。

在斯坦福的国家加速器实验室，大气观测望远镜到2020年要安装一个32亿像素（3.2GP）的照相机，10年以后每晚每隔15秒摄取极高分辨率的天空图像。该系统需要存储10亿亿字节（100PB）的数据，相当于2千万个DVD。当然，通过这个照相机的原始数据比这还要多得多。这个照相机的视野里面有400-500亿天文目标。长久存储这些像素几乎是不可能的，只能实时处理和提取关键数据。

大型科学仪器，从大型强子碰撞型加速装置到高级光束处理器和分子成像工具产生大量数据，是目前的并行超级计算机所无法处理的。可目前看到的现实是：1．摩尔定律已经失效，因为晶体管尺寸已经达到物理极限。2．超级计算机已经不能再这样用CPU堆下去了。成千上万，甚至几十万的CPU、GPU堆起来的超级计算机，耗电惊人，而并行计算实际上很难实现。大部分时间，CPU闲着，而Memory忙得要命。

3．亨.诺伊曼计算机体系结构非改不可了。存储-计算的方式已经不适用新情况。对于许多应用来说，实际的瓶颈不是处理时间，而是需要不断地存取存储器。

一个明显的事实是，虽然我国的天河超级计算机几次排名世界第一，但美国最近基本不参与这个排名的竞争，排第几它也不关心了。对于大数据的问题，怎么解决？

科学家们主要采取三个途径：一个是从观测开始各环节设法减小数据集；一个是从私人企业学习基于云计算的经验；另一个是探索新技术，譬如量子计算。量子计算对于破解密码、因子分解、量子物理模拟可能很有效，但是，对组合优化、航空调度、绝热算法是否有效，还很难说。所以，大科学产生大数据，大数据技术要靠大科学。物理学、光学、生物学、计算科学一起来，研究这些数据的收集、分发、存储、处理。不能单靠计算机。

前几篇博文我一直说：大数据技术靠计算机，大数据分析要靠各领域的专家，现在看来，大数据技术也要靠大科学的专家。文章给出的下图是美国阿贡国家实验室化学家Karena Chapman 凝视着新的硅劳厄单色仪的真空罐，该单色仪装进阿贡国家实验室的先进光子源，大大提高了X-射线流量，提高样本的光量子数17倍。

在这样一个创新的关键时刻，中国人应该有所作为。不要天天想着发SCI、投CNS、提职称、发牢骚，想想这些大问题吧！但是，我跟与会的朋友们说，不管计算机怎么变，容错计算是一个永恒的主题，在量子计算中，人们也在密切关注容错计算。高端容错计算机的实用价值就更不用说了，大家都懂的。