谷歌联合团队论文:什么决定了AI数据集们的生命周期?

来源: 数据实战派

发布日期: 2021-12-18 10:00:00

本文深入研究了机器学习研究中数据集的使用和重用模式,特别是在不同任务社区和时间(2015-2020年)之间的差异。研究发现,任务社区高度集中在数量有限的数据集上,并且这种集中度随着时间的推移而增加。此外,全球数据集使用的不平等越来越严重,50%以上正在被使用的数据集来源于由十二个精英机构引入的数据集。

数据集构成了机器学习研究的支柱。作为训练和测试机器学习模型的资源,它们深深融入机器学习研究人员的工作实践中。其中,基准数据集协助围绕共同研究问题的研究学者,并为他们提供稳定的衡量标准。基准测试的改进表现被认为是集体进步的关键信号。因此,这种表现受到个别研究人员的追捧,并用来对他们的贡献进行评估和排名。

此外,基准数据集与“现实世界”任务的紧密结合,对于其是否能够准确衡量集体科学进步,以及关注其是否合乎法律、合乎道德安全和能否有效部署模型等方面的研究具有重要意义。

鉴于基准数据集在社会和MLR科学组织中的核心作用,近年来它们也成为批判性调查的核心对象。尽管对基准数据集的关注越来越多,但令人惊讶的是,很少有人关注整个领域的数据集的使用和重用模式。

由加州大学洛杉矶分校和谷歌研究院联合发表的最新论文Reduced, Reused and Recycled: The Life of aDataset in Machine Learning Research,则深入研究了这些动态,在Papers With Code(PWC)语料库中研究数据集使用模式在机器学习子社区和时间(2015-2020年)之间有何不同。

更具体地说,本文研究围绕不同机器学习任务(例如,情感分析和面部识别)从以下三个研究问题进行分析:研究问题1(RQ1):机器学习任务社区在特定数据集上的集中程度如何?随着时间的推移,这种情况是否发生了变化?研究问题2(RQ2):机器学习研究人员从其他任务借用数据集,而不是使用为该任务明确创建的数据集的频率如何?研究问题3(RQ3):哪些机构负责“流通”中的主要ML基准?

本文主要数据来源是Papers With Code (PWC),这是一个由Facebook AI Research的研究人员创建的机器学习论文、数据集和评估表的开源存储库。该研究主要关注“数据集”档案,以及使用这些数据集的论文。档案中的每个数据集都与元数据相关联。本文在网站上找到了4,384个数据集,找到与这些数据集相关联的60,647篇论文。

为了最大限度地减少跨父任务和子任务的数据集使用的重复计算,本文选择专门关注PWC中的父任务。在这些分析中使用的结果度量(基尼系数、采用比例和创作比例)在小样本中会存在偏差,因此本文仅使用超过34篇论文的中位数大小的父任务。因为父任务通常更大且更广泛,所以往往被认为是连贯的任务社区。表1显示了每个分析中使用的数据的描述性统计。

分析RQ1探索了任务中数据集的使用,它包括论文中引入的数据集以及未引入的数据集(例如,在网站或竞赛中引入的数据集)。分析RQ2探讨了源任务和目标任务之间的数据集传输。因为本文只能确定在论文中引入的数据集的原始任务(表1),因此该数据集通常较小。

为了研究广泛使用的数据集在机构间的分布,本文将所有介绍数据集的论文链接到Microsoft Academic Graph (MAG)中。对数据集的使用情况进行了分析,其中最后一个作者将数据集的隶属关系在MAG中进行了注释(见表1)。与此同时,该研究再次施加限制,即用法必须与数据集共享标记任务,再次发现它对结果的影响最小。

本文有以下几点发现:1)任务社区高度集中在数量有限的数据集上,并且这种集中度随着时间的推移而增加2)这些社区内用于基准测试的数据集的很大一部分最初是为不同的任务开发的。3)全球数据集使用的不平等越来越严重,50%以上正在被使用数据集来源于由十二个精英机构(主要是西方机构)引入的数据集。4)在NLP社区中,集中在少数数据集上的更广泛趋势有所缓和,新数据集以更高的速度创建,而外部数据集的使用率更低。

UUID: 2ac0e1e2-3dfb-435a-821a-055842fbad84

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/学术头条_2021-12-18_「转」谷歌联合团队论文:什么决定了AI数据集们的生命周期?.txt

是否为广告: 否

处理费用: 0.0063 元