ImageNet等数据集每100个标签就错3个!标签错误会破坏基准的稳定性,然而,令人没想到的是,大多数机器学习中使用的10个主流基准测试集普遍存在标签错误。比如,把“狮子”标记成“猴子”,把“青蛙”标记成“猫”。MIT和亚马逊的研究人员近期就尝试了这项研究。机器学习数据集包括训练数据集和测试数据集,在以往的研究中,我们主要关注训练数据是否存在系统误差,而忽视了被引用最多的测试数据集。
这些测试集是我们用来衡量机器学习进展的基准。在这项研究中,MIT和亚马逊的研究人员通过算法识别验证了10个常用的测试集中确实存在普遍的标签错误,并进一步确定了它们如何影响ML基准的稳定性。
这10个数据集包括:MNIST、CIFAR-10、CIFAR-100、Caltech-256、ImageNet、QuickDraw、20news、IMDB、Amazon、AudioSet,它们不仅涉及图像数据集,还包括了文本、音频数据集。比如AudioSet是音频数据集,20news、IMDB和Amazon是文本数据集。
研究人员将相关成果发表在论文“Pervasive Label Errors in Test Sets Destabilize ML Benchmarks”上,我们接下来简单介绍一下论文的主要内容。主要发现包括:(1)ML测试集中的错误有多普遍?研究人员估计10个数据集的平均错误率为3.4%,例如2916个标签错误在ImageNet中占比6%;39万个标签错误在亚马逊评论中占比4%。
此外,即使在MNIST数据集——已被成千上万的同行评审用于ML研究的基准测试,在其测试集中也包含了15个(人类验证的)标签错误。(2)哪个ML数据集错误最多?QuickDraw测试集的错误标签达到了500万个,约占整个测试集的10%。(3)高容量模型更容易过拟合错误标记数据。
高容量/复杂模型(例如ResNet-50)在含错误标记的测试数据(即传统测量的数据)上表现良好,低容量模型(如ResNet-18)在手动更正标记的数据上有更好的表现。这可能是高容量模型在训练时过度拟合训练集的错误标签,或在调整测试集上的超参数时过度拟合测试集所导致的结果。(4)多少噪声会破坏ImageNet和CIFAR基准测试的稳定性?
在含有更正标签的ImageNet上:如果错误标记的示例仅占6%,那么ResNet-18的性能表现将优于ResNet-50。在含有更正标签的CIFAR-10上:如果错误标记的示例的占比为5%,那么VGG-11的性能表现优于VGG-19。传统意义上,ML从业者需要根据测试的准确性来选择部署模型。通过这项研究,研究者指出,在正确标记的测试集上判断模型可能更有用。
因此,研究者提出了几个建议:更正测试集标签,测试数据集是否受到不稳定基准的影响,考虑对带有噪声标签的数据集使用更简单/更小的模型。研究方法主要分为两个步骤,即算法识别和人工验证。在所有10个数据集中,研究人员首先通过置信学习算法进行初步识别标签错误(准确率可达54%),然后再通过众包的形式进行人工验证。需要说明的是,由于置信学习框架不与特定的数据模式或模型耦合,它支持在多种数据集中发现标签错误。
置信学习(CL)已成为监督学习和弱监督中的一个子领域,用于:描述标签噪声,查找标签错误,学习噪声标签,发现本体论问题。CL基于噪声数据剪枝的原理,通过计数对噪声进行评估,并对实例进行排序以进行置信训练。研究人员还提供了清洗过的测试集,希望未来的基准测试能够使用这些改进的测试数据,而不是原来含有错误标签的数据集。