近年来,机器学习对现实世界的影响与日俱增。在很大程度上,这是由于各种各样的深度学习模型的出现,使得从业人员可以在不需要任何手动操作特征工程的情况下,就可以在对比基准数据集上获得目前最佳分数。现在我们可以使用像 TensorFlow 和 PyTorch 这样的各类开源机器学习框架,以及大量可用的最先进的模型,可以说,高质量的机器学习模型现在几乎成为了一种可商品化的资源。
然而,这里还存在一个容易被忽视的问题:这些模型依赖于大量手动标注的训练数据。然而在很多任务中,这些手动标记的训练集创建起来既昂贵又耗时,通常需要花费许多人数月或者数年的成本来进行数据的收集、清理和调试——尤其是在需要领域专业知识的情况下。除此之外,任务经常会在现实世界中发生变化和演变。
例如,数据标注指南、标注的粒度或下游的用例都经常会发生变化,需要重新进行标记(例如,不仅要将评论分类为正类或负类,还要引入一个中性类别)。可见,由于数据标注需要付出高昂代价,这种强监督信息是很难获得的。因此,研究者们面对急需解决的数据标注问题,整合了现有的主动学习、半监督学习等研究成果,提出了「弱监督学习」概念,旨在研究通过较弱的监督信号来构建预测模型。
本论文集收集了通过弱监督学习方法实现的语义分割、图像分割的相关论文,欢迎大家下载查看!论文集地址:https://www.aminer.cn/topic/5fd9e25192c7f9be21a1568c
文献参考:关于弱监督学习,这可能是目前最详尽的一篇科普文,点击阅读原文,查看更多精彩!