赤裸裸的统计学：五大常见统计误区

每项重要的研究背后都离不开好的数据，是它们使分析成为可能。而每项不好的研究背后嘛……这个后面会说。人们常说“用数据说谎”，我要说往往数据的分析是没问题的，但这些分析却是建立在夸大或不实的数据之上。下面便是几个常见的“错进错出”案例。

选择偏倚

《纽约客》资深影评人宝琳•凯尔（Pauline Kael）据称曾经在理查德•尼克松（Richard Nixon）当选美国总统后评论：“尼克松不可能赢了竞选，我认识的人里面没一个投了他。”这句话很有可能是杜撰的，但却很好地说明了糟糕的样本（一群自由派朋友）会如何给更大的群体带来错误的偏见（全美国的投票结果）。而这也引出了我们应该问自己的问题：如何选择评估样本？

如果要接受评估的群体的每一个成员没有均等的机会入选样本，那么最终得出的结论就将会有偏颇。

发表偏倚正面的结果比负面的更有可能得到发表，而这可能会混淆我们最终所见到的结论。假设你刚刚做完了一次严谨的追踪调查，得出结论认为玩视频游戏不能预防结肠癌。在这项调查中，你花了20年的时间跟踪访问了作为代表性样本的10万个美国人；这些人当中，长时间玩视频游戏的跟不玩儿视频游戏的罹患结肠癌的几率基本一致。

我们假设你的研究方法完美无缺。但哪家医学期刊会发表你的研究结论呢？大多数活动都不能预防结肠癌。答案是没有。原因有二：第一，没有有力的科学理由认为玩儿视频游戏对结肠癌有什么影响，因此你研究这个的意义不明；其次，也是更重要的一点，某件事情不能预防结肠癌不是什么有趣的发现。毕竟，大多数东西都不能预防结肠癌。否定的结论尤其不性感，不论是在医疗领域还是其他。

回忆偏倚

记忆是件奇妙的东西——尽管不能总算作优质数据的来源。人类天生就有冲动将现状理解成过去发生的事情合乎逻辑的结果，也就是因果关系。问题出在当我们试图去解释某些当前特别好或者特别糟糕的结果时，记忆就会变得“系统性的不堪一击”。例如一项研究饮食和癌症之间的关系的研究。1993年，一名哈佛大学的研究者构建了一组罹患乳腺癌的妇女和没有被诊断出癌症的年龄匹配组女性的数据。

研究人员分别询问了这两组女性的早年饮食习惯。研究得出了清晰的结论：患有乳腺癌的妇女在年轻时有更显著的可能拥有高脂肪的饮食。

存活者误差假设一名高中校长报告说，学生中的一组特定人群在4年中（编注：美国高中有4年）考试成绩稳步上升。这批人高二的得分比他们在高一时的成绩好。高三那年的分数更好，高四达到了最好。我们假定不存在作弊的情况，也没有任何创造性地运用描述性的统计数据。

无论用什么评价标准，这批学生每一年都比前一年做得更好：平均数、中位数、学生在年级水平的百分比等等。你会（A）提名这所学校的领导为“年度最佳校长”还是（B）要求提供更多的数据？如果你有一屋子高矮不齐的人，强迫最矮的那个离开房间会使整个房间的平均身高上升，但这样做并不会使任何人的身高变高。

健康用户误差每天按时吃维生素片的人更有可能身体健康——他们是每天都按时吃维生素的人！

而至于维生素是否真的有益健康这又另当别论了。想想这样一个思考实验。假设公共卫生官员颁布这样一条声明，所有的刚生了小孩儿的夫妻都能该把自己的孩子裹在紫色的睡衣里睡觉，因为这有助于刺激大脑的发育。20年后，追踪研究证实，幼年时期穿紫色睡衣确实与今后人生中取得成功有一个特别大的正相关。

比方说，我们发现，98％考上哈佛大学的新生孩童时期都穿着紫色的睡衣（现在许多人仍然这样做），相比之下，马萨诸塞州监狱系统里的囚犯只有3%年幼时穿紫色睡衣。紫色睡衣并不重要。当然，紫色睡衣并不重要，但拥有那种会让孩子穿紫色睡衣的父母却十分重要。就算试图控制父母教育这样的因素，研究者仍然会面临那些执着于让孩子穿紫色睡衣和不穿的父母之间不可观测的差异。