快速和低廉是利用社交媒体来研究人们的想法和行为的巨大优势,因此许多行为科学家们都急切地希望通过它来开展研究。而当下日益壮大的社交媒体群,也因此成为了行为科学研究者的信息“宝库”。但卡内基梅隆大学和迈吉尔大学的计算机科学家们,对这种想法提出了质疑:这些来自社交媒体的大量数据,可能会误导行为学的研究。
卡内基梅隆大学的于尔根•菲费尔(Juergen Pfeffer)与迈吉尔大学的德里克•鲁茨(Derek Ruths)认为,来自推特(Twitter)和其它社交媒体的信息中存在固有的偏见,行为科学家们需要寻找到一个可以纠正这些偏见的方法,或他们至少要承认这些通过社交媒体信息所得的数据是存在缺陷的。该观点的评论文章于11月28日发表在《科学》(Science)上。
这并不是一个微不足道的问题。卡内基梅隆大学软件研究所助理研究教授菲费尔和迈吉尔大学计算机科学系助理教授鲁茨指出:在5年前,我们还几乎没有社交媒体这个数据源,但目前,每年会有成千上万篇的研究论文是基于社交媒体所提供的数据的。
社交网络为科研提供了大量的数据。“并非所有的'大数据'都可以作为很好的研究基础。”菲费尔说。很多研究者认为(或是希望)通过收集一个足够巨大的数据库,就可以克服信息中可能存在的偏见或者曲解的缺陷。虽然,研究者很难抗拒使用社交媒体作为研究数据源的欲望。
“人们想要说一些关于世界上正在发生的事情,那么,社交媒体就是一个很好的渠道。”菲费尔说道。例如,在2013年的波士顿马拉松爆炸事件后,菲费尔在短短两周内收集到了2500万条与事件相关的微博。尽管这样可以免费得到数以万人的行为学数据,但仍需强调:“行为学研究中还是那句老话——了解你的数据。”
研究者会利用社交媒体研究一些很令人瞩目的问题——比如想知道人们怎么看待电子烟,人们是如何交流表达自己对于糖尿病的焦虑的,或者阿拉伯之春的抗议行动是否可以预测,等等。现在,社交媒体已经可以作为这些问题(还有很多其他问题)的信息源了。尽管研究者尝试着通过总结广泛人群的情况,来得出他们的研究结果。
但社交媒体常常存在着大量的人群偏见;研究者常常认为,调查中所产生的随机样本能够正确地反应人们的态度和行为,但这种想法很有可能是错误的。例如Instagram(一款图片分享应用),对于18到29岁的非裔美国人、拉丁美洲人、妇女和城市居民有特别的吸引力。又如Pinterest(一个社交网站),主要的用户为平均收入10万美元、年龄为25到34岁的女性。
然而,鲁茨和菲费尔指出,研究者们很少承认其研究结果的正确性会因样品偏见的缺陷而受到影响。从微博微信上得到的数据,也许并不能代表普遍人群。社交媒体常常使用专利化的算法来生成或过滤他们的数据流,同时,他们在改变这些算法时也不会提示其它人。所以在使用社交媒体的信息进行研究时,数据样品采集的缺陷也就无法得到解决。
虽然某些研究者与个别社交网站有特殊关系,因此可以了解到网站内部的工作情况;但大部分研究者对网站这些算法的操作是一无所知的。鲁茨和菲费尔认为,随着这些“嵌入研究者”的增多,会逐渐导致研究社会媒体的群体发生两极分化。每一位使用社交媒体的人都知道,这些网站里的每一个账号,并非都是由现实中的某人在使用。还有些账号是专业作家或者公共关系代表的,他们使用社交媒体是为了代表名人或者公司。
有些账号仅仅是“僵尸”账号,还有时“关注数”还是可以用钱买到的。社交媒体网站试图锁定和消除这些虚假账户,那些在2013年注册的Twitter账号,有一半已经被删除。但是对于形单影只的研究者来说,从一个数据库中发现这些无效账户是十分困难的。
“进行现实社会科学研究的人,大多可以意识到这些问题。”菲费尔说。他认为,通过使用如流行病学、统计学和机器学习等已经存在的技术,可能可以帮助解决这些难题。当然,在其它的一些情况下,为了处理和分析信息中的偏见问题,科学家们还需要开发一些新的技术。