AI模型性能上不去?这真的不怪我,ImageNet等数据集每100个标签就错3个!

作者: 贝爽、陈彩娴

来源: AI科技评论

发布日期: 2021-03-31

MIT和亚马逊的研究人员通过算法识别验证了10个常用的测试集中确实存在普遍的标签错误,并进一步确定了它们如何影响ML基准的稳定性。研究人员估计10个数据集的平均错误率为3.4%,并提出了更正测试集标签、测试数据集是否受到不稳定基准的影响、考虑对带有噪声标签的数据集使用更简单/更小的模型等建议。

ImageNet等数据集每100个标签就错3个!标签错误会破坏基准的稳定性,然而,令人没想到的是,大多数机器学习中使用的10个主流基准测试集普遍存在标签错误。比如,把“狮子”标记成“猴子”,把“青蛙”标记成“猫”。MIT和亚马逊的研究人员近期就尝试了这项研究。机器学习数据集包括训练数据集和测试数据集,在以往的研究中,我们主要关注训练数据是否存在系统误差,而忽视了被引用最多的测试数据集。

这些测试集是我们用来衡量机器学习进展的基准。在这项研究中,MIT和亚马逊的研究人员通过算法识别验证了10个常用的测试集中确实存在普遍的标签错误,并进一步确定了它们如何影响ML基准的稳定性。

这10个数据集包括:MNIST、CIFAR-10、CIFAR-100、Caltech-256、ImageNet、QuickDraw、20news、IMDB、Amazon、AudioSet,它们不仅涉及图像数据集,还包括了文本、音频数据集。比如AudioSet是音频数据集,20news、IMDB和Amazon是文本数据集。

研究人员将相关成果发表在论文“Pervasive Label Errors in Test Sets Destabilize ML Benchmarks”上,我们接下来简单介绍一下论文的主要内容。主要发现包括:(1)ML测试集中的错误有多普遍?研究人员估计10个数据集的平均错误率为3.4%,例如2916个标签错误在ImageNet中占比6%;39万个标签错误在亚马逊评论中占比4%。

此外,即使在MNIST数据集——已被成千上万的同行评审用于ML研究的基准测试,在其测试集中也包含了15个(人类验证的)标签错误。(2)哪个ML数据集错误最多?QuickDraw测试集的错误标签达到了500万个,约占整个测试集的10%。(3)高容量模型更容易过拟合错误标记数据。

高容量/复杂模型(例如ResNet-50)在含错误标记的测试数据(即传统测量的数据)上表现良好,低容量模型(如ResNet-18)在手动更正标记的数据上有更好的表现。这可能是高容量模型在训练时过度拟合训练集的错误标签,或在调整测试集上的超参数时过度拟合测试集所导致的结果。(4)多少噪声会破坏ImageNet和CIFAR基准测试的稳定性?

在含有更正标签的ImageNet上:如果错误标记的示例仅占6%,那么ResNet-18的性能表现将优于ResNet-50。在含有更正标签的CIFAR-10上:如果错误标记的示例的占比为5%,那么VGG-11的性能表现优于VGG-19。传统意义上,ML从业者需要根据测试的准确性来选择部署模型。通过这项研究,研究者指出,在正确标记的测试集上判断模型可能更有用。

因此,研究者提出了几个建议:更正测试集标签,测试数据集是否受到不稳定基准的影响,考虑对带有噪声标签的数据集使用更简单/更小的模型。研究方法主要分为两个步骤,即算法识别和人工验证。在所有10个数据集中,研究人员首先通过置信学习算法进行初步识别标签错误(准确率可达54%),然后再通过众包的形式进行人工验证。需要说明的是,由于置信学习框架不与特定的数据模式或模型耦合,它支持在多种数据集中发现标签错误。

置信学习(CL)已成为监督学习和弱监督中的一个子领域,用于:描述标签噪声,查找标签错误,学习噪声标签,发现本体论问题。CL基于噪声数据剪枝的原理,通过计数对噪声进行评估,并对实例进行排序以进行置信训练。研究人员还提供了清洗过的测试集,希望未来的基准测试能够使用这些改进的测试数据,而不是原来含有错误标签的数据集。

UUID: 3bf67398-16f1-4c7f-a765-7fa57e8ffb9c

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-03-31_AI模型性能上不去?这真的不怪我,ImageNet等数据集每100个标签就错3个!.txt

是否为广告: 否

处理费用: 0.0048 元