人工智能，如何“拯救”不堪重负的天文学家？

人工智能在天文学中正发挥着实实在在、不可取代的作用。天文数字量级的观测数据，对于天文学家来说既是欢喜，也是烦恼。如何处理分析这些巨量数据，是一个令人头疼的问题。如今，科学家们从越来越强大的人工智能身上找到了解决办法。一周之内，独自对5万个星系进行手动分类后，牛津大学的天体物理学家Kevin Schawinski有点受不了。怎么办呢？他和同行们想到，不如发动群众。

星系动物园项目由此诞生，科学家希望找到3万人，对90万个星系分类，比如一个星系到底是属于漩涡星系还是椭圆星系。90万的工作量，即使让一位业务熟练的研究生来做，一周7天，每天24小时，也得花个三到五年。没想到，公众热烈响应，10万志愿者花了175天就完成了4000万个星系分类，一个星系平均分类了38次。这是在2007年。

“斯隆数字巡天”项目七年时间内拍摄的百万张照片，其检测和分类已经让天文学家不堪重负，不得不借助群众的力量。今天，大型巡天项目的数据规模更是大到惊人。比如，明年即将发射的欧洲的空间望远镜项目“欧几里德”，预计将观察100亿的星系，数据量达到几十PB；再比如正在智利建设的维拉·鲁宾天文台一旦运行，每晚将产生多达20TB的原始数据，差不多是斯隆数字巡天十年的数据规模，预计总共处理的数据量将达到几百PB。

粗略理解，100PB如果用来播放高清视频，可以一直放700年。如此庞大的数据，即使找大众帮忙，也不容易做到了，天文学家转而向人工智能求助。最近，上海天文台安涛研究员为天文学中雄心勃勃的项目——平方公里阵列射电望远镜（SKA），设计了一套名为“河图”的人工智能系统，采用了深度学习的方法，能自动实现对海量天体的快速识别和准确分类。今年的2月4日，SKA天文台正式宣布成立，中国是成员国之一。

SKA的第一阶段（占总规模的10%）会在南非的Karoo地区建设197个碟形天线，在西澳建造131072根天线，预计将以每秒几个TB的速度产生原始数据，每年产生的预校准科学数据达到700多PB，也就是7亿GB。可以说，在天文大数据上，SKA到达了新的高度。为了完整地处理这些海量的数据，方便全球的科学家使用，也为了控制预算，SKA在2019年就开始筹划由成员国在各国或地区建设SKA区域数据中心。

中国SKA区域中心的建设由安涛所在的上海天文台负责。2019年8月，该数据中心原型机的部署和测试在该台的佘山科技园区完成。人工智能系统“河图”也是在这台机器上进行开发和各种实验。这台原型机的一个特点，是针对SKA不同的科学任务的需求，设计了不同的架构，同时也要适应SKA巨量数据的存储与提取。“像SKA这样的，处理的都是大数据。

一般的计算机，一个CPU对应的内存也就几个GB，无法满足SKA数据密集型的运算需求。而我们差不多得几百个GB，就是几十倍的差距。为了实现这个技术要求，硬件架构、软件系统都要做相应的优化。”安涛告诉《知识分子》。软硬一体化的设计让原型机性能得到充分发挥。不过，仅仅这些还不够，数据处理的智能化也必不可少。说起来，安涛研究员带领的团队设计人工智能系统的想法比原型机的建造还要更早些。

2018年11月，SKA组织发布了第一期的科学数据挑战赛，参与者可以自行下载9张4GB的高清图片，用各自的软件和方法来对图片中的天体进行识别和分类。在不同的噪音水平、曝光时间和波段下，这些模拟的图片中预计可探测到的天体数目也不同，如在1000小时的曝光下，高频段可以达到10万的量级。一张图片10万个天体，听起来很多，但其实也只是完整SKA数据的“冰山一角”，使得这样的挑战也变成了热身赛。

实际上，位于澳大利亚西部的SKA探路者（ASKAP）巡天项目预计将探测到7000万个射电星系。在这次挑战赛中，安涛团队设计了三种传统的方法，虽然当时也用了人工智能，但效果却一般。同时，安涛也注意到有其他团队用到了当时最新的人工智能的技术，比如残差网络。残差网络最初是由微软亚洲研究院于2015年开发，属于卷积神经网络的一种。

在安涛看来，以卷积神经网络为代表的新一代人工智能技术在天体识别和分类方面具有巨大的潜能，一时的落后可能是由于网络的设计等方面还没有达到最佳。在“河图”的设计中，安涛团队一方面将残差网络的深度提高，这样有助于提高精度；同时引入金字塔网络，可以在一张图片中同时检测多个不同形态的天体。实验结果表明，河图的检测和分类速度，比传统的软件快20倍，达到了一张图万分之一秒。

自动和准确的天体普查工具，对于大型巡天项目的图像分析尤为重要。“‘河图’不仅具有更高的识别精度，而且在识别延展源和弱源方面也有卓越的能力。”安涛告诉《知识分子》，他们未来将进一步提高“河图”的识别性能和速度以支持更大规模的图像处理，并更多地关注特殊形态天体，预计在SKA先导（ASKAP）巡天中将发挥重要作用。

“神经网络对数据的理解比预期的要深，但它需要大量的数据集进行训练（学习），浩瀚的宇宙为神经网络提供了天然的巨大数据量，人工智能的发展无疑将对天文学产生深远的影响。”安涛说。在天文学中，对天体进行识别分类是基础性的工作。在这方面，如“河图”所展现的，人工智能的表现令人惊艳。事实上，在天文学的其它领域，人工智能也正发挥巨大的作用。

“AI、机器学习、深度学习等在天文学中应用是不可避免的，在大型巡天中海量天体自动分类、稀有特殊天体识别证认等研究中发挥了越来越重要的作用。我自己也已参加利用机器学习对天体分类的研究。”北京大学物理学院天文学系教授、系主任吴学兵告诉《知识分子》。

在论文预印本arxiv网站上，用关键词“卷积神经网络”搜索天体物理领域，可以得到400多个结果，最早的文献从2014年开始；而同样搜索条件下，过去12个月的文献达到了193条。从题目看，涉及到的问题也多种多样。确实，系外行星的搜索也已经处在了大数据的时代，人工智能的上场也顺理成章。

美国航空航天局（NASA）的开普勒空间望远镜，通过测量17万颗恒星的亮度变弱（由绕行而过的行星短暂遮挡造成）特征来发现系外行星，这中间就用到了人工智能技术。来自伦敦大学学院的研究人员，也已经开发了深度学习网络RobERt，“投喂”模拟的85000条5种类别的系外行星光变曲线，训练完成后，能以99.7%的准确度确定真实系外行星光变曲线中的大气层分子成分。除了系外行星，人工智能还能帮忙找新的恒星。

2017年6月，欧洲空间局（European Space Agency, ESA）的Gaia卫星，在人工智能网络的协助下，发现了6颗极速运行的恒星，这种新型恒星是因为与一颗巨型黑洞的相互作用所推动。天体之外，人工智能还能检测天文现象，比如引力透镜。引力透镜是由极大质量引起的时空变形，比如星系团就可以看作是一面宇宙的放大镜，可用来观察其身后更遥远的天体。

2017年10月，荷兰的格罗宁根大学、意大利的那不勒斯大学和波恩大学的研究者，就开发了检测引力透镜的方法，用的也是人工智能中的卷积神经网络。当然，现在的人工智能还不能称得上完美，一些普遍性的缺点在天文应用中也有出现。首先在训练人工智能模型中，需要准备很多带标签的数据，这还得有经验的天文学家手动完成，工作量不少。

此外，还有业界诟病的“可解释”难题——深度学习网络就像是一个黑匣子，无论是奇迹发生还是智障在线，你都无法知道，它到底是如何做出这个决策的。第三，如果预训练的数据存在某种“偏差”，等人工智能模型训练完成后，也会影响到结果的准确性。不过，有些缺陷也许会随着人工智能的进一步发展得到解决。“未来的人工智能也许可以直接学习望远镜产生的真实数据，而不需要用预先打了标签的数据进行训练。

这样既省下了工作量，也避免了数据偏差。”安涛说。尽管如此，安涛对未来人工智能的发展仍抱有信心，毕竟它在天文学中正发挥实实在在、不可取代的作用。如果哪天人工智能首先发现了适宜人类生存的系外行星，或者揭开暗能量、暗物质等宇宙最深邃的奥秘，天文学家应该会感到庆幸而不是嫉妒。