如果你问一个天文学博士,每天的工作除了思考宇宙之外还有什么,估计他们一定会告诉你:写代码啊!天文学家梅雷迪思·罗尔斯回忆说,2008年当她还在圣地亚哥州立大学读天文硕士时,她的教授突然说:“我们需要编程,你们会吗?”学生们答:“不太会啊……”于是教授开始利用午餐时间教他们,当时他们学习的语言是Fortran。
之后,罗尔斯去了新墨西哥州念博士,她发现周围的同事都在用另一种语言——Python,于是她又开始自学Python。其实发生在罗尔斯身上的事对于天文学学生来是很普遍的。许多刚开始从事天文学研究的学生基本上都要学习某种计算机语言,再视情况自修另一门其他语言。未来,新一代的望远镜如大型综合巡天望远镜(LSST)还有平方千米阵(SKA)等所能收集的数据动辄以太字节(TB)计算。
因此现在的天文学家不仅要懂得星系是怎么形成的,还要具备很强的计算机技才能从庞大的数据中提取出有效的信息。
回到望远镜收集的数据较小的年代,天文学家需要进行的数据处理轻松多了,那时需要做的大致分为这几步:远程登录望远镜数据库、找到所需的数据、下载数据并保存、画个图、写篇论文。
但现在,让天文学家们下载所有的数据是不现实的,“画个图”更是不切实际,他们所能做的只能是在坐标纸上描出那些显示数百万星系分布的相关函数。现阶段我们急需解决这类的问题,尤其是在他们变得更糟前。
天文学家Lucianne Walkowicz是LSST望远镜的合作协调员,LSST将会用10年的时间对星空进行不间断拍摄,她说:“如果过去我们还可以通过自学来处理这些数据,是因为即便你以为的那些数据’很大’,实际上也是小的。而LSST的情况会完全不一样,它所能收集到的数据之大和复杂程度,会将分析的难度问题急剧放大。”
在意识到这一点、并且了解了天文学学生自始至终受到的编码训练与过去天文学家基本相同之后,Walkowicz和LSST的同事们决定重新培训一帮天文计算“学徒”,因此LSST的数据科学奖学金计划诞生了。它旨在为期两年或两年以上的时间内让学生参加六周的研讨会。参加了这个计划的威斯康星大学的研究生Charee Peters说:“在参与这个课程前,我已经知道了自己的论文将会是什么。
参与进来后,我的论文方向并没有改变,只是我现在更加舒服自信了,我觉得自己更像一个科学家了。”
天文学家也同样给予了许多实用的工具。开放源码的AstroPy是为天文学开发的Python软件包,促进Python天文数据包之间的兼容性。AstroML在机器学习和数据挖掘方面也有类似的目标,科学家可以将相同的代码用在不同的数据上做相同的事情,来解决之前提到的低效率问题。但是,现代的科学研究意味着各种数据分析都少不了计算机科学的专业知识。如果没有这些技能,相信知识与科学家的认知间的鸿沟只会越来越大。