HFE: 多层级的特征构建方式解读

来源: 学术头条

发布日期: 2020-06-21

商汤城市计算团队在CVPR 2020上提出了一种利用身份信息辅助构建多层次特征的属性分类方法HFE,该方法在特征表示和性能指标上均优于现有方法。HFE通过ID和属性标签的双层监督,在特征空间中构建多层级逻辑结构,增强模型表征能力。实验结果显示,HFE在多个数据集上均表现出色,特别是在处理遮挡和图像模糊等复杂情况时,其预测准确性显著提高。

在 CVPR 2020 上,商汤城市计算团队提出了一个针对属性分类的多层次特征的构建方式,即利用身份 (ID) 信息辅助构建多层次的特征,该工作为特征构建方式提供了新的思路。相比于已有的属性分类方法, HFE 在特征表示和性能指标上均有显著优势。

直接使用 Cross Entropy Loss 训练的卷积神经网络分类,只是把同一类的特征聚拢到一起,对于类内没有约束。

我们在带有 ID 信息的属性数据集上进行实验,只使用属性标签进行分类时,发现类内分布非常杂乱,同一个 ID 的图片会分散在类内的各个位置。这说明了只使用属性标签训练的分类网络,无法正确的将 ID 相同的图片在特征空间上映射到足够近的距离,因此其特征表达不够稳定,容易受到场景变化等因素的干扰,在输入发生变化时,特征会发生比较大的偏移,增加了分类错误的可能性。

我们的方法在此处做出改进,使用 ID 和属性标签作为两个层级的监督,在特征空间里构建多层级的逻辑结构,以提高模型的表征能力。

我们提的方法整体框架如下图,主要由一个骨干网络,加多个属性分支组成。共享的骨干网络用来学习所有属性的共同特征,而每个单独的属性分支用来学习各个属性各自的特征。对于损失函数,首先我们沿用传统的方法,采用交叉熵(Cross Entropy, CE)损失函数进行属性分类,表示为 LCE。在 CE 基础上结合我们设计的多层次特征损失函数 (LHFE),总的损失函数可以写成如下所示。这里 w 表示权重。

多层次特征损失函数主要由两个三元组组成,一个是传统的类间三元组 (Linter),如下。为了形成细粒度的多层次的特征空间,我们利用身份信息构建类内三元组(Lintra),如下。结合上述的 Linter 和 Lintra,我们可以同时维护类间和类内的特征空间。如下图所示,通过五元组的限制,我们可以维护一个多层级的相对距离,从而达到构建层次化的特征空间的目的。

上述的损失函数虽然能同时维护类间特征和类内特征,但是只考虑了相对距离。从绝对距离角度上看,并不能保证在整个训练集中,锚样本和正样本的距离都小于锚样本和负样本的距离。为此,我们设计了绝对边界正则项(Absolute Boundary Regularization,ABR)如下:因此我们的多层次特征损失函数 (LHFE) 由上述 Linter、Lintra 和 LBR 三项组成。

在训练初始的时候得到的特征空间并不可靠,由于五元组的选择依赖于特征空间,如果一开始就用较大的权重,可能会带来噪音。所以我们为上述损失函数设计了一个动态权重,通过权重动态增大,使特征空间慢慢地从原始的状态转向层次化的状态。这里 T 表示整个训练的迭代次数,而 iter 表示当前的迭代次数。w0 是一个预先设置好的常数。

本文使用了两个行人属性数据集:Market 1501[1] 和 Duke[2],和一个人脸属性数据集:CelebA[3],进行了实验。在三个数据集上的实验结果表明,HFE 比现有的最先进的方法更具竞争力,如下表所示:为了进一步分析各个组件的效果,我们在 market 1501 上做了详尽的对比实验,如下表所示,可以看到每个部分都是有各自的提升效果的。

为了直观地观察特征空间的变化,我们对一个属性在不同 loss 下的特征空间进行了可视化,如下图所示。可以看到,每增加一个组件,类内的特征都更紧密,而类间的特征距离更远,界限更清晰。而且 HFE 确实可以形成更细粒度的类内特征空间,同时让类内更紧凑,类间更清晰,满足我们的预期。

下图为属性可视效果对比,可以看出,对于属性比较清晰可见时,三个方法都能判断正确;而当遮挡发生或图像模糊时,CE 和 APR[4] 出现错误预测的概率较高,HFE 却还是能预测正确。

UUID: 5d60d092-e832-4303-8f45-3a4c1d672017

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2020年-上/2020-06-21_CVPR2020HFE多层级的特征构建方式解读.txt

是否为广告: 否

处理费用: 0.0043 元