美国重夺超算TOP500第一，中国还有反超机会吗？

6月25日，“超级计算机500强”（TOP500）最新榜单正式发布。时隔五年，美国超级计算机“Summit”终于超越中国超算神威·太湖之光，重回第一。美国超算卷土重来意味着什么？中国还有反超的机会吗？超算未来的发展趋势是怎样的？为此，大院er访问了中国科学院计算技术研究所的张云泉研究员。

超算TOP500每年发布两次，我们国家的天河2号和太湖之光，分别六次和四次拿到冠军，一共十次，相当于连续五年占据了TOP500的冠军位置。美国政府为此很着急。之前由于奥巴马政府对超算不够重视，奥巴马只是在第二个任期快结束的时候才发布了一项总统令，加快超算研制的创新步伐。而特朗普就任以后，却对超算极其重视，在砍掉了很多科学研究预算的情况下，超算的预算不但没砍，反而增加了。

几年前，美国部署了三台百P（相当于十亿亿次）量级的超级计算机，每秒的运算速度可以达到100P到200P左右，分别是Summit、Sierra、Aurora三台机器。目标有三个：第一当然是为美国的国家实验室研发世界领先的超级计算模拟系统，保持美国科学创新的领导地位；第二是希望保持美国在超级计算机研制上的技术优势和领先水平；第三就是希望把TOP500第一的位置夺回来。

为此美国大概拨款了5个亿美元的预算，计划在2018年年底推出第一台机器，重返Top500榜首。

但是美国终究无法继续容忍中国再霸占世界TOP500的冠军位置半年，将原来的计划提前了半年，于今年6月份就调整计划推出了Summit、Sierra两台机器，作为双保险争夺世界第一，Summit直接将峰值性能提升到200P，终于如愿夺回世界第一的位置，美国终于松了一口气，重新找到老大的感觉。

其实美国最早是想用峰值180P的Aurora来作为种子选手争夺世界第一的，但是由于英特尔负责研制的新Xeon Phil加速器无法按期完成，只好修改合同，直接去研发2021年完成的百亿亿次超级计算机A21。

如果画一条中国超算的性能发展曲线的话，可以看到，中国的超算实际上是从一穷二白做起的。在2002年之前，TOP500上就没有中国的超算，或者说中国超算本身就很少。从2002年之后，经过15年的高速发展，中国超算的上榜数量，包括性能都是指数级增长，以旱地拔葱的方式一跃而起。

原来是美日欧三大集团瓜分世界超算TOP500的前三名，像马拉松一样，他们平稳地跑在第一方阵。而中国就属于从队尾直接冲到了第一方阵中的选手，我们超过了第三名的欧盟，超过了第二名的日本，最后又超过了美国，成为世界第一。15年的时间很不容易，从一穷二白到最后成为世界第一，中国超算机器的研发水平，现在确实是世界领先的，处在第一方阵的靠前水平。

但是我们也面临很多的困扰，我们的机器发展比较快，但是相应的应用和软件研制这块有点滞后，没有完全跟上，可能有投资原因，还有各种人才培养周期的原因。但是现在我们也在积极的解决这些问题，后期国家对软件研发、对人才的培养都加大了投资力度。这些问题还需要5到10年的时间去解决，达到平衡状态。

中国超算走过了一条比较特殊的路，就是机器发展拉动应用需求，也就是说我们机器的水平是超过了应用需求的。这是一种政府主导的快速发展模式。这个路现在是比较成功的。我们机器发展比较快，也带动应用的水平快速提升。但是未来我们希望能够用5到10年的时间，把这种发展模式转变成应用需求来拉动机器发展，这样更科学更合理。这种发展模式，也是西方发达国家现在的发展模式。

现在来看，我们已经连续两年拿了戈登贝尔奖（编者注：该奖设立于1987年，主要颁发给高性能应用领域最杰出成就，通常会由当年TOP500排行名列前茅的计算机系统的应用获得），说明应用水平提高还是很快的！

这个绝对是谣言，中国至少在今年是不可能重回TOP500榜首的。美国会占据排行榜第一名的位置大概至少两年的时间，蝉联四次冠军是有可能的。至于在2020年有没有可能？也许有可能。我国的计划应该是在2020年左右，凭借百亿亿次超级计算机重新去夺回世界第一的位置。但是能不能夺回来，也很难说，因为美国、日本、欧盟也在强化研制下一代的超级计算机，他们都是计划在2021年左右推出，到底最后第一是谁还不一定。

近五年来，中国占据了TOP500的榜首，原因之一是我们的发展道路（机器发展拉动应用需求），但是也有运气成分，因为正好处在美日欧的低潮期。在这五年里，美日欧的研制计划都比较弱。日本国内对于要不要拿TOP500世界第一也有一些分歧，结果日本国会没有拨款，所以日本的研发计划一再拖延。欧盟是因为它本身没有实力自己研制，只能购买美日等国的产品。

美国是因为正好处在奥巴马政府不重视的时期，预算被调整，本身的研制周期也出了问题。所以我们找到个空档，打了胜仗，这是难得遇到的历史机遇。

美国这次虽然拿了第一，但与中国的太湖之光所釆用的体系架构相比，并没有本质的区别。太湖之光的峰值是125P，美国的Summit是187P，没有量级上的性能差别。只是说由于Summit的投资力度大、研发时间晚，采用了新的工艺和技术，它的峰比太湖之光高一些，但是其在架构和技术上并没有拉开差距。

这个是媒体误导，原型机很小，性能只有5P，也就是100P的1/20。只是一个测试性的样机，为未来的百亿亿次超级计算机探索技术路线图的，并不是最后的百亿亿次机。

现在全球的各个国家又重视超算了，都在重新调整战略。新一代的百亿亿次竞争就会从2020年开始。到底哪个国家先做出来？百亿亿次超级计算机的最大的问题就是功耗控制，需要在半导体工艺上有很大的突破，才有可能把功耗控制在30兆瓦左右。

如果说功耗控制没有发生革命性的降低，以现在的技术去搭建的话，它的功耗可能会达到一百兆瓦，就没法用了。电费也太贵，1年的电费相当于十亿人民币。所以国际上的竞争就是看谁有本事在30兆瓦的功耗预算的前提下，能够造出百亿亿次超级计算机，这个是目前最大的挑战。

超级计算机简单的说就是“算天算地算人”，它的运算范围可以说是天文地理无所不包。

第一个方面是满足国家战略的运算需求，比如说核武器核力量研发、核反应堆的研发。第二个方面是参与国家信息安全情报的大数据处理。第三个方面是科学计算，研究各种科学问题。比如宇宙的演化、汽车的碰撞、药物的设计……方方面面的研究都会用到超级计算机。比如说，如果没有超级计算机，天气预报的水平就会跟不上的，精度也不够，准确率也不高。第四个方面是大数据和人工智能。

现在的人工智能研究大量地采用超级计算机的异构加速体系架构，很多互联网公司也在用GPU搭建大量超级计算机。

从这四个角度来说，它都有很大的作用。超算正越来越多的渗透到各行各业中去。现在还出现了新的趋势，就是在这一轮的科技创新中，大数据、云计算，人工智能、区块链，还有边缘计算等等，这些热词的背后全都需要超强的计算能力，我们叫做算力经济。一个地方想发展新的高科技，如果没有很强的云计算平台或超级计算平台，算力经济的创新性都无从谈起。所以说，超级计算机在中国新的发展、新的科技创新中都是极为重要的一环。