1979年,英国乐队快乐小分队(Joy Division)发行了自己的首张唱片《Unknown Pleasuers》,这张专辑发行两周内就卖了5000份,但问题是……印了10000份。然而,当乐队的单曲《Transmission》发布后,这张后朋克唱片很快销售一空。作为
一个乐盲,我是没搞懂这歌的意思(好像对收音机很不满)。整个70年代不断衰落的英国社会使青少年群体对现实极度不
满,采取了一些很强烈的表现形式来抒发感情,这催生了朋克运动,至于后朋克运动,据说比朋克更具实验性质。有意思
的是这个专辑在2017年又重新流行了,倒不是因为社会再度衰落,而是那个设计极为特殊的封面。
《Unknown Pleasuers》封面(图片来自维基百科)
这里说的封面流行是指在数据可视化领域里,其实它本就很流行……在流行文化里。很多人用这个类似波谱的图来指征一
种波动、起伏的感受,恰恰应和《Unknown Pleasuers》中那种迷茫而强烈的情感,同时封面设计师又开放了版权,所以我们
可以看到其在很多场景中的再现。例如3D打印版、服装版、电影版等。甚至有人制作了一个网站来用鼠标生成类似风格
的图。不过这个图仔细看是很有问题的:坐标轴是什么?线的间隔是固定的吗?有什么意义?这图又是怎么做出来的?
冤有头债有主,《科学美国人》曾经对这张封面的源头进行过探索,据封面设计师Peter Saville的说法,这张图是从
1977年出版的《The Cambridge Encyclopaedia of Astronomy》上面一幅关于脉冲星CP1919所发出的脉冲波叠加图(不是山峰,也
不是波浪)上获取灵感进行的创作,但这所谓的“创作”实质上就是把颜色做了反转还去掉了坐标轴。不过这就说明源头是
这本书吗?不,顺着这本书,有人追溯到了1974年《Graphis diagrams: The graphic visualization of abstract data》
。进一步追溯,
会发现更早出版的《科学美国人》(1971年1月刊)上也使用了这幅图。也就是《科学美国人》的考古队出门绕了个圈,又
回到起点了。这种溯源到最后挖了自己祖坟的事其实并不稀奇,即使在有搜索引擎的今天,二手、三手乃至十八手资料的
源头很可能就是自己发布的资料,不过改头换面后亲爹亲妈可能都认不出来。用个赶时髦的话说,该放到区块链上做存在
性证明了。
那么《科学美国人》又是哪里搞到这幅图的呢?事实上1971年的文章之所以要用这幅图,是因为要介绍脉冲星这个上世纪
60年代的重大发现,而这个发现的确切时间是1967年,也就是说这个图的出生日期就在1967年与1971年之间。然后我
们就找到了Harold D. Craft, Jr.在康奈尔大学的博士论文《Radio Observations of the Pulse Profiles and Dispersion Measures of
Twelve Pulsars》,到这个时候真正的源头才出现。
《Unknown Pleasuers》封面的源头,Harold D. Craft, Jr.博士论文插图。
Radio Observations of the Pulse Profiles and Dispersion Measures of
Twelve Pulsars, Harold D. Craft, Jr. (PhD Thesis, September 1970 pages 214-216), Cornell University
当《科学美国人》联系到Harold D. Craft, Jr.时,他也顺道说了下这幅图背后的故事。刚开始在脉冲星在剑桥被发现后,他
所在的团队就意识到自己其实拥有当时世界上最好的测量脉冲星的设备,其实也就是电子设备。然后,从测量结果上他们
很快就发现脉冲星的脉冲存在一些漂移,也就是大脉冲里有小脉冲,这个结果发表在《自然》上。但他们觉得需要一个更
直观的方式来观察这些脉冲的模式,然后就做了一些叠加图,很快就发现这种图前后的遮挡太过严重。作为一个程序员,
遮挡问题其实就是一个漂移问题,所以他操起键盘(也可能是打孔卡)做出了一个漂移版,这样当峰强度足够时才会出现
遮挡,而这类峰正是我们想看的模式。不过不要高估那个年代的技术,他还得再找人用印度墨水(其实就是中国墨汁)重
新勾描一遍才能清晰的放到博士论文里。不过他显然不是流行文化爱好者,因为直到他同事有天闲逛时发现后告诉他他才
发现自己的图这么流行,然后他毫不犹豫的买下了有这张图的专辑与海报:
It’s my image, and I ought to have a copy of it.
这是我的图,我应该有一个图的副本。
我能想象很多人要考虑版权问题了,说实话我也没搞清楚,不过看起来创作者并不在意,而封面设计者也不在意,也许正
是不在意促进了某些文化的流行。好了,前世就这样了,那么今生呢?
这事要从去年7月份说起,twitter上突然出了这么一张图
由于@hnrklndbrg给出了作图的R源码,一时间大家都开始纷纷回复转发并做出了自己的版本。当然joyplot的名字也伴随
这条推文开始走红。据说是Jenny Bryan首先提出的这个名字并联系到了上面所说的快乐小分队的专辑封面。
这个图在增加了坐标轴后的突然流行其实跟最近在可视化里要求展示大量原始数据的需求不谋而合。我们现在考虑这样一
个场景,有三组数据,每组1000个数值,如果进行比较,用什么来可视化?
(为了演示效果,这里模拟数据用了不同分
布)
从上例可以看出joyplot在展示原始数据状态时属于比较直观的,犹如重山叠嶂,不论是对比峰值还是对比特定数值上概率
密度都很简单。而峰值上的遮挡在多数情况下不会影响数据展示,因为能放到一起比较的数据分布不会差太远。一般而
言,x轴是一个连续变量,y轴是分类变量,而高度则是y分类下x的概率密度分布,符合这个数据结构的数据都适合用
joyplot来进行展示。
故事还没完,你也注意到了,现在joyplot又改名了。新的英文名叫做ridgeline,中文名暂时就叫叠嶂图吧。原因还是出在快
乐小分队上,快乐小分队其实是纳粹集中营里提供性服务的犹太妇女团体,而这个乐队起名的时候就是用的这个典故。这
样的黑历史在西方世界乃至全世界都是不愿意提及的,所以很快可以画叠嶂图的ggjoy包退休,功能完全一致的ggridges包
闪亮登场。
这就是叠嶂图的前世今生了,前前世比较黑暗,前世是流行文化,今生则是可视化领域的新贵。
这就是叠嶂图的前世今生了,前前世比较黑暗,前世是流行文化,今生则是可视化领域的新贵。
这里我们还是举个
比较实际的例子,下面这组数据收集了348414份期刊论文里的3623355个p值,横跨28个学科:
现在我想问你在这张图上有啥发现呢?
作者介绍
于淼,中科院环境科学博士,目前海外漂泊,业余跨学科理论搬运工,博客https://yufree.cn
作者:于淼
审稿:谢益辉
编辑:吴佳萍
原文经过部分删改
来源:统计之都
来源:统计之都
编辑:
编辑:
Cloudiink
近期热门文章Top10
↓ 点击标题即可查看 ↓
1. 进了赌场黑名单的数学家们,已经快把这种电影最爱的赌法玩坏了
2. 我所了解的中国电子元器件行业
3. 今天没有推送,千万不要点开!
4. 镜子里的你为什么是左右颠倒而不是上下颠倒? | No.99
5. 人家的脑子是纯金的!纯金的!
6. 说来惭愧,当年打了中情局脸的黑科技,如今我们用在了吃饭上
7. 学物理的颜值高是一种怎样的体验? | No.100
8. Science:钻石都弯了,还有什么不能?
9. 你可能跑不过自己的影子,因为黑暗比光速还快?
10. 日本人掌握了武林绝学万剑归宗,秘密是好好学物理
点此查看以往全部热门文章
阅读原文