数据⼜乱了?看看科学家如何玩转Excel和Google Sheets

作者: Jeffrey M. Perkel

来源: Nature Portfolio

发布日期: 2022-09-19 08:00:04

数据科学家对使⽤电⼦表格做数据分析有独特看法,更喜欢使⽤编程语⾔如R和Python。但许多研究⼈员觉得⽤电⼦表格更舒服,电⼦表格是解决问题的最快⽅法。电⼦表格提供了⼴泛的格式选项,但也⽐看上去更棘⼿,如公式覆盖的数据范围不对,对列求平均值的函数将返回错误的值。

微软Excel和Google Sheets都功能强⼤,⽤途⼴泛。不过数据科学家说,⽤它们是有窍⻔的。加利福尼亚⼤学的数据科学图书馆⻓Stephanie Labou⻅识过电⼦表格可以有多恐怖,其中最骇⼈的是⼀个⼿⼯输⼊的GPS坐标表格。数据科学家对使⽤电⼦表格做数据分析可有看法了。总的来说,他们更喜欢使⽤编程语⾔,如R和Python,在这些语⾔中更容易记录和重现分析。

但许多研究⼈员觉得⽤电⼦表格更舒服,⽽因为⽤这类表⽽受打击就太不划算了,Labou说。有时候,电⼦表格是解决问题的最快⽅法。电⼦表格提供了⼴泛的格式选项,从字体样式到背景填充到边框。这类电⼦“装饰”可以让表格变得更有⽣⽓,更好读。但当研究⼈员使⽤这种样式来编码数据时,他们可能会遇到麻烦。电⼦表格是响应式的:依赖其他单元格的单元格会在数据更改时⾃动更新。

它们也很有⽤,可以智能地格式化数据,使其更易于阅读。另外,它们⽆处不在。波⼠顿软件开发商RStudio的开源项⽬主管Tracy Teal说,电⼦表格是“数据科学的起点”。但它们也⽐看上去更棘⼿。例如,如果公式覆盖的数据范围不对,对列求平均值的函数将返回错误的值。看起来空着的单元格可能其实不空。⽽且⾃动格式化⼲起活来有时和⼈想的不⼀样。

研究⼈员⼀直都知道,⼀些基因组研究包含混乱的数据,因为Excel错将⼀些基因符号(如OCT4)转换为⽇期。对2014年⾄2020年发表的约11,100篇论⽂进⾏的分析发现,31%的论⽂仍然包含此类错误。正如威斯康⾙⼤学⻨迪逊分校的数据科学家Karl Broman和当时在⻄雅图华盛顿⼤学的Kara Woo在2018年所写,“就这些平平⽆奇的矩形⽽⾔,电⼦表格已经被焦虑和争议了⼏⼗年。”

UUID: d628b78b-2066-43d9-b3e5-f9fa380d6f56

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/返朴公众号-pdf2txt/2022/返朴_2022-09-19「转」_数据又乱了?看看科学家如何玩转Excel和GoogleSheets_20220919_080230.txt

是否为广告: 否

处理费用: 0.0060 元