Excel软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型,多年来一直困扰着计算生物学家。虽然学界早已意识到该问题,相同的错误却在近年变得越来越普遍了。最近一项针对一万多篇论文的调查显示,其中三分之一研究数据的基因名称都出了错。
澳大利亚迪肯大学(Deakin University)的研究团队近期对2014到2020年间发表在PubMed Central的11117项研究论文的补充基因列表进行了调查,发现其中有3436组数据出现了由Microsoft Excel的自动类型转换导致的错误,错误的基因列表占比超过了30%。
分析结果7月30日发表在《公共科学图书馆-计算生物学》(PLoS Computational Biology)上。
这项研究的通讯作者、迪肯大学的基因组生物学研究者Mark Ziemann从今年年初开始持续对期刊中的基因数据进行观察,并每月发布一份数据错误清单,很多知名期刊都是这份名单上的常客。Ziemann在The Conversation网站上撰写了一篇评论文章,表达对现状的痛心。
他指出,如此大量的错误影响广泛而严重,不仅反映出研究人员缺乏对此问题的重视和相关技能,还反映出期刊论文的同行评审存在严重疏忽,这意味着更多的错误可能潜伏其中。
自动更正或类型转换功能会导致基因组名称错误,这个问题并非最近才被发现。早在2004年,《BMC生物信息学》(BMC Bioinformatics)上就有研究指出,至少有30个人类基因和蛋白质名称会受到Excel软件的日期转换影响。浮点格式转换可能引起的基因标识符错误更是高达2000多个。并且由于Excel不保存修改历史,这些转换是不可逆的,原始的基因名称无法恢复。
受到影响的字符串主要有两类:本身名称与特定日期格式恰好相符。如名为“MARCH1”,“SEPT1”、“Oct-4”的基因,会被Excel当作3月1日、9月1日、10月4日等日期,转换为日期数据。唯一的英文字母为“E”或“e”,其前后均为数字。
这类字符串巧合了浮点计数的格式,会被Excel自动转换为有效数字在[1, 10)间的浮点数字(科学计数法),如“2310009E13”会被转换为“2.31E+19”。
Ziemann的团队在2016年就进行了一项调查研究。他们编写了一套脚本,分析了2005到2015年间发表在18本期刊上的3597篇论文所附的7467个Excel补充数据文件(.xls和.xlsx后缀),发现其中704篇论文的共987个补充文件中存在基因名称错误,出错比例达到了20%。
基于2016年的这一研究报告,国际人类基因组组织(HUGO)基因命名委员会(HGNC)于2017年宣布修改一些基因名称,以避免被Excel误判为日期格式。共有27个基因名称得到更新,如“SEPT4”被改为“SEPTIN4”,“MARCH1”被改为“MARCHF1”。
30个左右的基因在人类基因组约44000个基因中只占一小部分,这些错误似乎不太可能动摇任何特定基因组研究的结论。但2010年美国杜克大学(Duke University)曾有研究报告表达了担忧——在商业和金融领域,电子表格中的微小错误可能导致一系列交易失误,最终导致股市崩盘,基因组学和其他数据密集型科学领域也是如此。哪怕仅仅一个基因数据错误,都可能导致数据列表全部错位一行,彻底改变基因组分析结果。
澳大利亚悉尼大学的分子生物学家、已经使用基因微阵列和基因转录数据在牛羊疾病领域进行了20年研究的Auriol Purdie也认为这一错误对她的研究产生了重大影响。她表示,自己很容易发现由于格式转换而发生的基因数据丢失,但Excel程序并不能自动帮她找到具体是哪些基因数据出了问题。手动在包含多达2万条数据的基因表格中逐一寻找丢失的基因成为了研究工作中无比繁重的负担。
出乎预料的是,在学界意识到Excel的自动更正导致的严重错误,且HGNC进行了基因更名后,这一问题并未被解决,甚至有愈演愈烈之势。Ziemann的团队2016年对过去十年的论文数据进行的统计调查得出的错误率尚为约20%,而今年对2014年到2020年的相同调查得出的错误率却高达30%。
欧洲生物信息学研究所(European Bioinformatics Institute)的HGNC联络人Elspeth Bruford认为,凭此错误增长就得出更名无用的结论或许为时过早,因为更名的影响还需数年时间来渗透到学界,在论文和数据表中体现出来。但即使更名的作用完全与预期相符,她也并不对该问题的解决持完全乐观的态度。
更名与HGNC倾向于保持基因名称稳定的初衷背道而驰,仅靠更名也并不能完全解决Excel误改的问题——巧合了Excel日期的基因得到了更名,但与浮点计数格式撞上的基因并没有得到更名。
Bruford认为,这一问题很难通过Excel更新得到解决。
基因研究领域的用户群只占了Excel所有用户中微不足道的一部分,并且微软也表示“Excel的默认设置旨在满足大多数用户在大多数情况下的需求”,不会为了遗传学领域的用户对软件进行修改。对基因相关领域的研究者来说唯一一劳永逸的解决方案可能是转用其他工具,脚本化的计算机语言如Python或R是最佳选项。
这些语言不但能避免画蛇添足的自动更正,本身功能也远比Excel强大——能够提供更强的分析技术,具有可重复性和可审核性,并且允许更好地进行版本管理,区分不同作者的贡献。
尽管好处是显而易见的,但转用编程语言进行研究对很多研究者们来说门槛或许太高了。Purdie表示,她早已适应了Excel的“怪癖”,养成了在会受影响的基因名称前加上半个单引号来防止自动转换的习惯。
比起学习编程语言所要耗费的巨大时间和精力,这样的小麻烦是她“能够妥协的事情”。她还会在共享和发布数据之前按基因名称对数据进行排序——这至少会让被错误转换为日期的基因排在首位——来进行快速检查,这与Ziemann对坚持使用Excel的研究者的建议一致。
Ziemann仍坚持转用编程语言的重要性,“它们最初可能很难学习,但从长远来看,所能带来的科学益处是值得的”。他强调,“数据密集型领域(尤其是生命科学领域)的研究者需要更好的计算机技能”,对于遇到学习困难的研究人员,相关机构应提供基本代码技能的指导,就如志愿项目Software Carpentry正在做的。除了研究人员,大学也应更多地为本科生提供所需的高级分析技能课程。