早间新闻说,上个月的消费指数上升了n个点;手机上跳出实时的股票涨跌,顺便可以看一下上市公司的年报以判断股票前景;工作例会上,你使用的数据PPT模板让展示更加美观有趣,获得老板好评;你心情不错想听听音乐,音乐APP跳出你的上周听歌时长统计,再听n首便可升级;一把游戏结束,系统自动送上战力统计,你的队友明显拖了后腿,下次不要和ta组队了;此时手机又提醒你视屏时间过长,建议休息一下,因为科学研究表明,连续视屏超过x小时便会使视力下降y%……如今,我们每天、每时、每刻都被各种数据包围、淹没。
这些信息有的只是作为日常生活的点缀,大可一笑了之;而有的则会成为决策的依据,变得举足轻重。我们信任数据,认为数据总是客观情况的客观反映。可真的如此吗?今天,赛先生为大家拆解一本中信出版社出版的新书——《拆穿数据胡扯》。
本书的缘起?本书来源于美国华盛顿大学的“拆穿胡扯”(Calling Bullshit)公开课。这门课由生物学教授卡尔·伯格斯特龙和信息学副教授杰文·韦斯特联合主讲。
他们从逻辑和传播渠道的角度揭开数据伪科学如何产生与传播。目的是说明一个事实:即使你不是一名专业的统计学家、计量经济学家或数据科学家,你也能批判性地思考那些定量论证;无须大量数据和数周时间,也能看穿胡扯。只要有基本的逻辑推理,在需要的时候,再辅以通过搜索引擎轻松获取的信息,通常就足以解决问题了。课程一经上线,广受好评,显然,识别数据陷阱,已然成为当代生活的刚需。
何为数据胡扯?伯格斯特龙和韦斯特认为:胡扯与黑箱、刑事机器学习等现象有关。胡扯就是全然不顾事实、逻辑连贯性或实际传递的信息,而是利用语言、统计数字、数据图表和其他表现形式,通过分散注意力、震慑或恐吓等方法,达到说服或打动听话人的目的。数据胡扯的最终目的,是通过有意为之的操作,使本应该客观的数据,为己所用。我们暴露在胡扯面前的时间和几率可能远远超过我们所认为的,形式也是五花八门。
数据胡扯的视觉把戏——形式大于内容。我们先来看这样一个例:下面这个图形的设计者用两个餐叉的尖齿代表条形图中的条形。这样做有什么坏处呢?坏处很多:1条形是图形中承载信息的部分,但它们在这张图中只占了很小一部分空间;2倾斜的角度也会引发争议,因为读者不习惯解读这种角度的条形图;3两把餐叉并排,但底部水平线并没有对齐,容易造成错觉;4幸好数值被写出来了。
但如果必须依靠数值来解读图形,为什么不直接用表格呢?胡扯就是公然无视事实和逻辑连贯性,企图通过分散注意力、震慑或恐吓来说服或打动受众。这样的图表设计方式试图让图表变得『可爱』以取悦读者,结果让读者更难理解它表示的数据,逐渐变成胡扯,得不偿失。
科学领域有胡扯?当然!不幸的是,科学领域也会屡屡中招。例如,有的期刊会在1月份发表更多文章,这样一来,这些文章本年度被引用的机会就会增加。
所有这些反常的行为都违背了期刊的使命,削弱了引用数作为质量指标的有效性。类似地,对科研人士的论文数量指标催生了只要给钱便可发表文章的“掠夺性期刊”,也让科研领域成为了胡扯的高发地带。虽然掠夺性期刊的主要客户是给简历增色的边缘学术人,但也包括气候怀疑论者、反对疫苗者、神创论者和艾滋病否认论者。他们以版面费为代价换取在科研领域的“一面之地”,然后说他们的边缘信仰通过了“同行评议”的科学。
这是典型的胡扯污染。
辨别胡扯6步法:▫ 质疑信息来源 ▫ 当心不公平的比较 ▫ 如果好得或糟糕得不像是真的…… ▫ 从数量级考虑 ▫ 避免证真偏差 ▫ 考虑多个假设。辨别可能的胡扯的最终目的,是指斥胡扯。然而清除胡扯的代价要远远高于制造胡扯,哪怕真正符合科研方法论的论文也是如此。这就是所谓的『造谣一张嘴,辟谣跑断腿』。指斥胡扯不只是为了增强自信,它还是一种道义上的责任。
正如我们在开头所说,世界充斥着各式各样的胡扯,有些是无伤大雅的,有些是小麻烦,还有一些甚至很有趣,但很多胡扯会给科学的诚实和生死攸关的决策带来严重的后果。“数据成了新式胡扯的杀手锏”。但我们绝不否认科学是理解物理世界的一个成功的标准手段。不管我们抱怨什么,不管我们发现了什么偏见,不管我们遇到什么问题,不管我们说了什么废话,科学最终还是会成功的。希望本书能帮助你面对冲击,将事实与虚构区分开来。