如果了解一个家庭的经济实力、教育水平、生活环境等基础状况数据,你能预测未来十年或者二十年的生活样子吗?答案是可想而知的——毕竟复杂的社会网络、难测的生活经历,以及每个带有个人主观性质的小小决定,都有可能对未来生活造成不可逆转的方向的改变。
但是,当拥有大量基础数据后,我们或许可以判断个人在特定生活环境下怎样成长或者趋向性做出怎样的决定,某个事件对于家庭会造成怎样积极或者消极的影响,这也许就会让不可能变成可能。而AI强大的分析数据的能力,给这种预测未来的可能带来了一丝曙光。
如今,科学家们正开始在这一领域的尝试。来自普林斯顿大学与弗吉尼亚理工大学等多家机构的研究人员合作进行的一项大规模研究,通过建立统计和机器学习模型来预测和衡量美国各地儿童、父母和家庭的生活结果,这个大规模的合作项目被称为“脆弱的家庭挑战”。
来自弗吉尼亚理工大学弗拉林生命科学研究所的研究科学家Brian Goode是脆弱家庭挑战中的数据和社会科学家之一。该研究对1998年至2000年间出生在美国大城市的约5000名儿童进行了研究,其中未婚父母所生儿童的样本数量过多。这项纵向研究的目的是了解出生在未婚家庭的孩子的生活。通过收集六次调查,这项研究已经收集了数百万关于儿童及其家庭的数据点。
在研究人员设计这个项目的时候,15岁的数据还没有公开。这同时也创造了一个机会,让其他科学家通过大规模合作来预测研究对象的生活结果。联合组织者收到了来自世界各地68所大学的457份申请,其中包括来自普林斯顿的几个团队。利用该项目的家庭数据,参与者被要求预测15岁时六种生活结果中的一种或多种。
这项挑战是基于“共同任务法”,这是一种在计算机科学中经常使用的研究设计,但在社会科学中却不常用。
目标是准确地预测保留的数据,不管达到这个目标需要多么复杂的技术。研究结果由112名共同作者发表在《美国国家科学院院刊》杂志上。结果表明,即使使用了最先进的建模技术和包含4000多个家庭1.3万个数据点的高质量数据集,最好的人工智能预测模型也不是很准确。因此,社会学家和数据科学家对于AI预测模型时应谨慎使用,尤其是在刑事司法系统和社会项目中。