AI模型性能上不去？这真的不怪我，ImageNet等数据集每100个标签就错3个！

ImageNet等数据集每100个标签就错3个！标签错误会破坏基准的稳定性，然而，令人没想到的是，大多数机器学习中使用的10个主流基准测试集普遍存在标签错误。比如，把“狮子”标记成“猴子”，把“青蛙”标记成“猫”。MIT和亚马逊的研究人员近期就尝试了这项研究。机器学习数据集包括训练数据集和测试数据集，在以往的研究中，我们主要关注训练数据是否存在系统误差，而忽视了被引用最多的测试数据集。

这些测试集是我们用来衡量机器学习进展的基准。在这项研究中，MIT和亚马逊的研究人员通过算法识别验证了10个常用的测试集中确实存在普遍的标签错误，并进一步确定了它们如何影响ML基准的稳定性。

这10个数据集包括：MNIST、CIFAR-10、CIFAR-100、Caltech-256、ImageNet、QuickDraw、20news、IMDB、Amazon、AudioSet，它们不仅涉及图像数据集，还包括了文本、音频数据集。比如AudioSet是音频数据集，20news、IMDB和Amazon是文本数据集。

研究人员将相关成果发表在论文“Pervasive Label Errors in Test Sets Destabilize ML Benchmarks”上，我们接下来简单介绍一下论文的主要内容。主要发现包括：（1）ML测试集中的错误有多普遍？研究人员估计10个数据集的平均错误率为3.4%，例如2916个标签错误在ImageNet中占比6%；39万个标签错误在亚马逊评论中占比4%。

此外，即使在MNIST数据集——已被成千上万的同行评审用于ML研究的基准测试，在其测试集中也包含了15个（人类验证的）标签错误。（2）哪个ML数据集错误最多？QuickDraw测试集的错误标签达到了500万个，约占整个测试集的10%。（3）高容量模型更容易过拟合错误标记数据。

高容量/复杂模型（例如ResNet-50）在含错误标记的测试数据（即传统测量的数据）上表现良好，低容量模型（如ResNet-18）在手动更正标记的数据上有更好的表现。这可能是高容量模型在训练时过度拟合训练集的错误标签，或在调整测试集上的超参数时过度拟合测试集所导致的结果。（4）多少噪声会破坏ImageNet和CIFAR基准测试的稳定性？

在含有更正标签的ImageNet上：如果错误标记的示例仅占6%，那么ResNet-18的性能表现将优于ResNet-50。在含有更正标签的CIFAR-10上：如果错误标记的示例的占比为5%，那么VGG-11的性能表现优于VGG-19。传统意义上，ML从业者需要根据测试的准确性来选择部署模型。通过这项研究，研究者指出，在正确标记的测试集上判断模型可能更有用。

因此，研究者提出了几个建议：更正测试集标签，测试数据集是否受到不稳定基准的影响，考虑对带有噪声标签的数据集使用更简单/更小的模型。研究方法主要分为两个步骤，即算法识别和人工验证。在所有10个数据集中，研究人员首先通过置信学习算法进行初步识别标签错误（准确率可达54%），然后再通过众包的形式进行人工验证。需要说明的是，由于置信学习框架不与特定的数据模式或模型耦合，它支持在多种数据集中发现标签错误。

置信学习（CL）已成为监督学习和弱监督中的一个子领域，用于：描述标签噪声，查找标签错误，学习噪声标签，发现本体论问题。CL基于噪声数据剪枝的原理，通过计数对噪声进行评估，并对实例进行排序以进行置信训练。研究人员还提供了清洗过的测试集，希望未来的基准测试能够使用这些改进的测试数据，而不是原来含有错误标签的数据集。