我们平时在做重大决策的时候,比如择校啊,选专业啊,总是会参考这些比较对象的硬指标,比如它们的录取率啊,就业率啊等等。统计数字可以帮助我们了解这些比较对象的优劣,让我们做出明智的决策。不光是个人,公司和国家也是这样做决策的。那么这样做对吗?实际上,我们刚刚看到的例子,就是统计学中著名的黑魔法之一——辛普森悖论。辛普森悖论就是当你把数据拆开细看的时候,细节和整体趋势完全不同的现象。
辛普森悖论:同一组数据,整体的趋势和分组后的趋势完全不同。从统计学家的观点来看,出现辛普森悖论的原因是因为这些数据中潜藏着一个魔鬼——潜在变量,比如在上面这个例子里,潜在变量就是病情严重程度不同的病人的占比。辛普森悖论在日常生活中层出不穷。最著名的辛普森悖论的实例,就是1973年加利福尼亚大学伯克利分校性别歧视案的例子。
不少统计学家认为,辛普森悖论的存在,让我们不可能光用统计数字来推导准确的因果关系。因为数据可以用各种各样的方式分类,然后再进行比较,所以理论上潜在变量无穷无尽,你总是可以用某个潜在变量得到某种结论。辛普森悖论完美地阐释了这句古老的哲学寓言:“假如一棵树在森林里倒下而没有人在附近听见,它有没有发出声音?”如果我们能做的,就是仔细地研究分析各种影响因素,不要笼统概括地、浅尝辄止地看问题。