新冠肺炎疫情在全球肆虐,各类研究新冠肺炎的论文也不断出现。尤其在各种预印本平台上,相关研究呈现爆炸式增长,但质量参差不齐,泥沙俱下。这些未经学术界同行评议的论文,充斥着各种各样的错误。因为社会对学术界的尊重,这些学术论文,即使未经过同行评议,也会通过大众传媒和社交媒体,对普通民众的认知和政策制定产生一定的影响。本文通过分析两个存在逻辑漏洞和统计学偏差的研究案例,以提醒学术研究需要严谨和说服力。
否则,受损的不仅仅是研究者个人的声誉,更是整个学术界的公信力。
最近哈佛医学院一项未经同行评议的研究引起社会广泛关注,该研究宣称新冠肺炎疫情早在2019年8月就已经在武汉开始传播。在研究方法上,这项研究使用了武汉多家医院停车场的卫星影像数据,发现2019年夏秋季节医院停车场的车辆明显增加。同时,在百度搜索引擎上“咳嗽”和“腹泻”关键词的搜索量也出现增加;而咳嗽和腹泻是新冠肺炎的重要症状。
此外,这些关键词搜索量的增加和卫星影像上停车场车辆数目的增加时间上重合。于是,作者得出结论,判断出新冠肺炎疫情开始传播的时间为2019年8月。
从研究方法上讲,通过遥感卫星影像获取信息,甚至判断疾病发生的趋势,是常见的方法。例如,研究人员曾用遥感卫星数据获取植被覆盖的信息,结合当地的湿润程度,综合判断出一个区域钉螺适宜的分布范围,从而估计血吸虫病发病的风险。
这些研究,首先对遥感数据的使用有着严格的要求,而且一般需要地表的实测数据对模型进行训练和纠正。更重要的是,研究人员需要是领域专家,对相关研究题目熟悉,了解使用遥感卫星数据的局限和可能产生的偏差。
回到哈佛医学院的这篇论文,停车场的数据是否能够真实反映医院就诊人数的变化,医院就诊人数的变化是否能够反映因为新冠肺炎疫情就诊人数的变化?这两个问题都要打大大的问号。另外,当地医院是否有地下停车场?
遥感图像采集时间是否一致从而车流量是可比较的?天气是否会影响停车场车辆的数量?从遥感卫星图像估计新冠肺炎疫情属于间接测量,中间依赖太多的逻辑假设。这些问题的回答,都会对这些逻辑假设是否成立产生影响,严重影响遥感卫星图像在该研究问题中的正确使用。不知道是疏忽大意还是有意为之,这些使用遥感图像做间接测量的重要逻辑假设,都被作者们忽略或者浮光掠影一笔带过。
通过搜索引擎中关键词搜索量的变化,来估计甚至预测疾病发展的趋势,是一种常见的研究方法。早在十年前,谷歌的研究人员就利用一系列关键词搜索频率的变化,预测全美国范围内流感暴发的趋势,甚至能比疾控中心的数据更早地发现流感暴发,相关的研究成果也被制作为“谷歌流感趋势”放在网上供用户免费使用。使用类似的方法,人们还研究了登革热发生的时空分布。
不仅是搜索引擎关键词的数据,推特等社交媒体上和疾病相关的关键词数据,也可以用于预测疾病的流行。
但是,这种使用搜索引擎数据和社交媒体数据的方法,因存在严重缺陷而广受诟病:搜索引擎数据和社交媒体数据,都不是临床数据或者实验室化验数据,会存在严重的局限。例如,一个人在搜索引擎中搜索“打喷嚏”可能因为他感染流感,也可能仅仅因为花粉过敏。更重要的是,感染流感的病人中有相当一部分不表现任何症状。
关键词选取是否恰当?是否有实际数据进行训练?这些方面的诸多缺陷决定了哈佛医学院的这项研究,仅仅使用百度搜索引擎中极个别关键词的数据来判断武汉新冠肺炎疫情的暴发时间,存在方法上的严重缺陷。
另外,百度官方在6月10日的声明中表示,武汉地区“咳嗽”的整体搜索量峰值与每年的流感季是吻合的,而“腹泻”的搜索量与往年相比并没有明显变化。同时百度指数显示,2019年12月左右“腹泻”搜索量还有轻微的下降。哈佛医学院的论文数据和百度声明的矛盾之处,还需要作者做出进一步的说明。
如果说哈佛医学院所谓的相关研究让人“吐槽无力”,一些看似严谨,但在统计学存在偏差,不仔细分析很难分辨出结论是否可靠的研究,在新冠肺炎疫情期间也吸引了不少的眼球。新冠肺炎发展趋势的影响因素是研究人员关注的热点。人们很容易从流感在秋冬季节暴发这一日常经验中得到启发,猜想新冠肺炎疫情和气温、湿度等天气变量之间存在的相关性。
关于新冠肺炎疫情和环境因素之间的研究大量涌现:例如,新冠肺炎死亡病例数与空气中的绝对湿度呈现负相关关系。甚至空气污染和新冠肺炎疫情之间也存在关联:研究人员利用美国大约3000个县的数据,发现新冠肺炎的死亡率与空气中细颗粒物(PM2.5)的浓度显著正相关。在预印本网站MedRxiv上,可以找到许多类似的研究论文。
另有一些研究结果表明在强制接种卡介苗(一种预防肺结核的疫苗)的国家,新冠肺炎确诊及死亡人数的上升速度较其他国家而言更为平缓,进而宣称卡介苗在一定程度上可抑制病毒的传播或减少其危害。
这些研究都是将环境因素和新冠肺炎疫情在城市、地区或者国家层面内整合,研究疾病与变量之间的统计学关系。
简单来讲,研究人员统计每个地区(例如各个省)的新冠肺炎死亡病例数/确诊数,以及该地区的平均气温、湿度、空气污染程度、卡介苗接种率等,然后将新冠肺炎死亡数/确诊数和这些可能的影响因素之间做回归分析,得出结论。这种简单直观的统计方法,实际上存在着严重的统计学偏差,因为统计模型的结果依赖于我们如何划分区域。
我们以一个简单的例子来说明。
下图中,假设每个黑点代表一个确诊病例,白点代表非确诊病例,图a的小方框代表5个不同的地区,可以发现确诊病例只出现在0度的低温区域。从个体数据出发可以发现:气温越低,患病率越高,气温和患病率是负相关。但在实际操作中,疫情统计报告中经常将个体的数据汇总到市级别或者省级别,然后加以发布。
我们将图a中的个体层面的数据以三种不同的方式整合为2个大的区域(对应图b-d),并计算每个大区域的患病率和平均温度,用回归模型考察患病率和平均温度之间的关系。结果我们发现,患病率与气温之间可以是正相关、负相关或无关,完全依赖于如何划分区域。这样一个简单的例子向我们展示了不同的数据空间整合方式,会得出完全不同结论。
类似地,在考察湿度、空气污染、卡介苗接种率和新冠肺炎疫情之间关系的时候,也会面临类似的统计学偏差。我们可以用实际数据进一步证明,划分区域的不同为何会影响新冠肺炎疫情和各种因素之间的统计学关系。我们通过使用湖北省新冠肺炎的死亡病例和当地二氧化氮空气污染程度的数据,考察了两者之间的关系如何随着区域边界的划分而变化。
我们发现,随着区域划分方式的不同,二氧化氮污染程度和新冠肺炎疫情之间呈现不同的方向,可以是正相关也可以是负相关。也就是说,同一组湖北省的环境和疫情数据,只是在空间上采取了不同的区域划分,两者的关联却可以呈现完全相反的结果。这种因为区域划分不同可能产生的统计差异叫做可变面元问题。
新冠肺炎疫情和环境因素、卡介苗接种率等变量之间的关系,需要采用更加严谨的方法进一步研究,例如研究者们可以:(1)将流行病学分析建立在更精确的尺度上,比如在个人尺度上;(2)除统计学模型外,结合流行病学、生物学等实验分析,使结果更具有说服力。
学术研究是严肃认真的,需要确保研究成果的严谨性;同时,学术研究也需要对当下热点问题做出及时回应,确保研究的时效性。
优秀的研究多是针对重大的问题做出及时有力而且严谨客观的回应。但是,学术研究严谨性和时效性在面对例如新冠肺炎疫情这种紧急事件的时候会存在矛盾:面对瞬息万变的疫情和奔涌而来的新信息,研究人员很难在短时间内对所有信息进行处理和有效回应,做出一项完全严谨的研究。在面对诸如新冠肺炎疫情等紧急事件的时候,及时发表意见是我们科研工作者责无旁贷的使命,它可以帮助社会各界更好应对危机。
但同时,我们作为科学工作者,应该对科研保持敬畏之心,确保所做的科研成果是严谨的,经得起时间考验的。一项不严谨的科学研究,可能会对社会正常秩序带来严重影响,一个典型的案例便是疫情蔓延初期的双黄连哄抢事件,民众连夜排队将大小药房的双黄连抢购一空,最后不仅发现双黄连并未用于肺炎的预防或治疗,反而人群聚集使感染风险进一步提升。
笔者之一也曾在哈佛长期工作学习,敬佩于哈佛的崇高的学术声誉和扎实的学术作风。
此次哈佛医学院的论文一经媒体披露,作者也和其他哈佛研究人员一样惊愕万分。一个学术机构的声誉建立是长久的过程,科研工作者发表的不严谨科学研究会让自己和所在机构的学术声誉蒙羞,带来长期的影响。
科研工作者要能做出更多经得起推敲的、证据充分的科研成果,避免大众、政府采取不必要的防疫措施,或对夏天高温减缓肺炎传播抱有幻想,对防疫掉以轻心;也需避免我们的研究成果成为政治集团的工具,继续分化这个已经分崩离析的世界,阻碍全人类团结抗疫的努力。