花费10亿美元却失败的研究?

作者: 黄晓磊

来源: 中国科学报

发布日期: 2018-02-24 21:06:45

美国NIH在1991年启动的Women's Health Initiative研究,耗资近10亿美元,旨在通过低脂肪饮食预防绝经后女性的乳腺癌、结肠癌、心血管疾病等,但经过十几年的研究,并未发现实验组和对照组在患病概率上有显著差异,许多人认为该研究失败。预防医学研究所主席Dean Ornish指出,大规模随机对照试验可能并不靠谱,因为科学家无法控制随机试验中可能出现的误差,如实验组的依从性和对照组的自我改变。他强调,需要更多创造性的实验设计,并指出小规模研究可能比大规模研究更能显示组间的显著差异。

花费10亿美元却失败的研究?

(图片来源:pixabay)美国NIH在1991年启动了一项巨大规模的随机对照研究(randomized controlled trial),称为Women's Health Initiative(WHI)。该项研究持续约15年时,耗资已近10亿美元。WHI的一项任务是检验低脂肪饮食(low-fat diet)是否能够有效预防绝经后女性的乳腺癌、结肠癌、心血管疾病等。

研究者将48835名女性(平均62.3岁)随机分为实验组(饮食干预)和对照组(无饮食干预),并于1993至2005年间跟踪她们的身体状况。然而,经过十几年的研究,却并未获得科学家预期的结果——两组人员患病概率并没有明显差异。WHI其他方面的研究的结果也差不多。换句话说,这项花费近10亿美元的研究,很多人认为失败了。该项目貌似现在依然处于活跃状态,其网站还不断有新内容发布。

以这个项目做例子,预防医学研究所(Preventive Medicine Research Institute)的主席Dean Ornish认为,对于医学研究来说,大规模随机对照试验可能并不靠谱。最关键的问题是:科学家并不能控制所谓的随机试验中可能出现的误差。比如,实验组的人或许没能严格按照饮食干预的要求来做,而对照组的人或许改变了自己的饮食习惯。

仔细读读他下面的观点,对于开展试验设计及理解医学研究结果会很有帮助。

Dean Ornish认为,一个常见的但错误的信念是,大规模的研究总是比小规模的研究更严格或更具决定性,而随机对照试验总是金标准。然而,越来越多的人意识到,规模并不总是关键,随机对照试验可能引入其自身的偏见。我们需要更多创造性的实验设计。

在任何科学研究中,问题是:“实验组和对照组之间观察到的差异是由于干预还是偶然?”根据惯例,如果结果是由于偶然的概率小于5%,那么它被认为是统计上显著的,即真实的发现。随机对照试验(RCT)基于这样的想法:如果你将受试者随机分配到一个接受干预的实验组或一个不接受干预的对照组,那么任何已知或未知的组间差异都可能同样影响一个组或另一个组。

虽然这在理论上听起来不错,但在实践中,RCT经常引入自己的偏见,从而削弱了研究结果的有效性。例如,RCT可能设计来确定饮食变化是否可以预防心脏病和癌症。调查人员确定符合某些选择标准的患者,例如,他们有心臓病。当他们与潜在的研究参与者会面时,调查人员详细描述了研究并问道:“如果你被随机分配到实验组,你愿意改变你的生活方式吗?”为了有资格参加研究,患者需要回答:“是。

”然而,如果该患者随后被随机分配到对照组,那么该患者可能会开始自行进行生活方式的改变,因为他们已经详细了解了这些生活方式的改变。如果他们正在研究一种只对实验组可用的药物,那么问题就不大了。但在行为干预的情况下,那些被随机分配到对照组的人可能会做出至少一些这些改变,因为他们相信调查人员一定认为这些生活方式的改变是值得做的,否则他们就不会研究它们。

或者,他们可能对被随机分配到对照组感到失望,因此他们更有可能退出研究,从而产生选择偏见。此外,在大规模的RCT中,通常很难为实验组提供足够的支持和资源来做出生活方式的改变。结果,这些生活方式改变的依从性通常低于调查人员根据早期小规模患者试点研究预测的水平,这些患者得到了更多的支持。上述的净效应是(a)减少实验组做出所需生活方式改变的可能性,(b)增加对照组做出类似生活方式改变的可能性。

这减少了组间的差异,并使其不太可能显示出它们之间的统计显著差异。因此,结论是干预没有显著效果可能是误导的。这就是所谓的“类型2错误”,意味着存在真正的差异,但这些设计问题掩盖了检测它们的能力。这正是Women's Health Initiative研究中发生的情况,该研究跟踪了近49,000名中年妇女超过八年。实验组的女性被要求每天少吃脂肪,多吃水果、蔬菜和全谷物,看看是否能帮助预防心脏病和癌症。

对照组的女性没有被要求改变她们的饮食。然而,实验组参与者并没有按照建议减少她们的膳食脂肪——她们的饮食中超过29%是由脂肪组成的,而不是研究目标的不到20%。此外,她们并没有大幅增加水果和蔬菜的消费。相比之下,对照组减少了脂肪的摄入量,几乎和实验组一样多,并增加了水果和蔬菜的消费,稀释了组间的差异,以至于它们在统计上不显著。

调查人员报告说,这些饮食改变并没有保护心脏病或癌症,而假设并没有真正被测试。

讽刺的是,小规模的研究可能比大规模的研究更有可能显示出组间的显著差异。Women's Health Initiative研究花费了近10亿美元,但没有充分测试假设。小规模研究为每个患者提供了更多的资源,以提高依从性,成本更低。

此外,RCT中你只改变一个自变量(干预)并测量一个因变量(结果)的想法通常是一个神话。例如,假设你正在研究锻炼及其预防癌症的效果。你设计了一项研究,将一组随机分配到锻炼组,另一组分配到不锻炼组。在纸上,它似乎你只处理一个自变量。

然而,在实际操作中,当你让人们参加一个锻炼计划时,你不仅仅是在让他们锻炼;你实际上影响了其他可能混淆你结果解释的因素,即使你没有意识到它们。例如,人们经常和其他人一起锻炼,越来越多的证据表明,增强的社会支持显著降低了大多数慢性疾病的风险。你也在通过参与研究来增强一种意义和目的感,这些也有治疗益处。而且当人们锻炼时,他们通常开始吃更健康的食物。

我们需要新的、更周到的实验设计和系统方法来考虑这些问题。此外,新的基因组见解将使我们能够更好地理解个体对治疗的变异,而不是希望通过随机分配患者来“平均”这种变异。

UUID: ac0c5a16-58ca-4646-9074-929482c36da7

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中国科学报公众号-pdf2txt/2017-2018/中国科学报_2018-02-24_这项花费近10亿美元的研究,很多人认为失败了.txt

是否为广告: 否

处理费用: 0.0054 元