机器学习以其特有的优势逐渐在科学研究中得到大量应用,然而,其内在的“黑箱”特点也带来了一系列问题,有研究者认为正是机器学习的这种不可解释性导致了当下科学研究的“可重复性危机”——如果科学不可重复,那么我们还能称之为真正的科学吗?与此同时,更有研究者声称机器学习已经成为一种“炼金术”。
本文基于机器学习所带来的“可重复性危机”,从“是什么”、“为什么”以及“如何做”三个层次进行了阐述,为这一危机寻找出路:可重复性和可解释性的机器学习模型。
“如今科学界的研究人员普遍意识到存在一种“可重复性危机”(Reproducibility Crisis)。我敢说,这其中很大一部分都来源于机器学习技术在科学中的应用。”——Genevera Allen,莱斯大学统计与电气工程系教授。
机器学习方法正在取代传统的统计方法,越来越普遍地被应用到科学研究过程中,这会给科学界及其对知识的追求带来什么影响呢?一些人认为,正是机器学习技术的“黑箱”导致了科学研究的“可重复性危机”。毕竟,如果科学不可重复,那我们是否还能称之为真正的科学?
科学界的“可重复性危机”是指是指惊人数量的研究结果无法在另一组科学家团队进行的同一个实验中实现重复。这可能就意味最初的结果是错误的。一项研究表明,在全世界所有进行过的生物医学研究中,有多达85%的研究结果都是徒劳无获的。
机器学习的前景也并非完全黯淡无光。传统统计方法和数据集也一直存在着类似的问题,只是在机器学习中这些问题由于大型数据集和算法的大量使用而被放大了。这些数据集和算法可以自动找到数据的相关性,与传统技术相比,使得我们更难对找到的相关性进行解释。同时,上述这种放大也暴露了科学研究过程中有待克服的弱点。