ICCV2019 | 北大、华为联合提出无需数据集的Student Networks

作者: Liyang

来源: 学术头条

发布日期: 2019-11-06

本文介绍了ICCV2019会议上北大和华为联合提出的无需数据集的Student Networks,详细解读了《Data-Free Learning of Student Networks》论文。该论文提出了一种利用GAN生成器模拟原始训练集的方法,通过知识蒸馏技术训练出具有较小尺寸和复杂度的student网络,实验结果表明该方法在多个数据集上表现优异。

北大、华为联合提出无需数据集的Student Networks。本文将对ICCV2019会议论文《Data-Free Learning of Student Networks》进行解读,这篇论文在神经网络压缩领域有相当高的实用价值。

作者从难以获取teacher网络原始训练集的角度出发,提出了一种将teacher网络用作固定的判决器,利用GAN(Generative Adversarial Networks)的生成器来产生模拟原始训练集的训练样本,进一步训练、获得具有较小尺寸和复杂度的student(portable)网络。

实验结果表明,作者所提出的DAFL(Data-Free Learning)方法在MNIST、CIFAR、CelebA等数据集上具有很好的性能,相对于KD(Knowledge Distillation)等方法具有更好的实用性。

神经网络压缩算法目前根据有无原始数据的参与分为两种。

Data-Driven类Hinton等提出了一种知识蒸馏方法(knowledge distillation,KD),该方法提炼出经过预训练的teacher网络的信息,以学习portable(student)网络。Denton等利用低秩分解(SVD)来处理全连接层的权重矩阵。Han等采用修剪、量化和霍夫曼编码来获得紧凑的深度CNN,使之具有较低的计算复杂度。

Li等进一步提出了一种特征模拟框架,以训练有效的卷积网络进行目标检测。上述方法在大多数据集上取得了良好的效果,但如果没有原始训练数据集,则很难应用。

Data-Free类Lopes等利用原始训练数据集记录的“元数据”(meta-data)(例如,每层激活的平均值和标准偏差),但大多数训练过的CNN很难提供此数据。

Srinivas和Babu提出在完全连接的层中直接合并相似的神经元来压缩网络,但这很难应用于未详细说明结构和参数信息的卷积层和网络。实际上,由于如涉及隐私、传输限制等因素,原始训练数据集和详细的网络结构、参数等很难获取,这就意味着上述两类方法难于应用。

GAN有一个生成器和一个判决器,给定的teacher网络同时作为GAN的判决器,不对其进行任何更新。Random Signals(随机信号)输入到GAN的生成器,变换为模拟的原始数据,由判决器进行识别。生成器生成一组数据后,再通过KD方法对student网络的参数进行更新。

作者设计的学习过程可以分为两个训练阶段。首先,将teacher网络作为固定判决器。使用上述的L_Total损失函数,优化生成器G。其次,我们利用KD方法将知识直接从teacher网络转移到student网络。使用KD的损失L_KD来优化具有较少参数的student网络。在MNIST、CIFAR等数据集上的实验表明,作者所提出的DAFL方法可获得性能较好的portable网络,显示了一定的实用价值。

UUID: 44044440-9135-49b8-b6d8-582a00da1562

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2019年/2019-11-06_ICCV2019北大、华为联合提出无需数据集的StudentNetworks.txt

是否为广告: 否

处理费用: 0.0055 元