第26届ACM SIGKDD知识发现和数据挖掘会议(KDD 2020)已于太平洋标准时间8月23日-27日以虚拟线上方式召开。今年KDD收集了338篇论文(研究和应用轨道),34个研讨会,45个教程(讲座和实践),使其成为计算机科学中最大的应用研究会议之一。
在继时间检验奖,新星奖,创新奖,论文奖,服务奖等奖项公布之后,最佳论文奖也已出炉,其中最佳论文奖由谷歌研究院的Walid Krichene和Steffen Rendle摘得,最佳学生论文奖由杜克大学的Ang Li、Huanrui Yang、陈怡然和北航段逸骁、杨建磊获得。
最佳论文奖由来自谷歌研究院的Walid Krichene和Steffen Rendle获得,获奖题目为《On Sampled Metrics for Item Recommendation》。项目推荐的任务需要在给定上下文的情况下对大量的项目进行排序。项目推荐算法是使用依赖于相关项目位置的排名指标来评估的。为了加速度量的计算,最近的工作经常使用抽样的度量,其中只有一组较小的随机项和相关项被排序。
本文对抽样指标进行了更详细的研究,发现它们与精确的度量值不一致,因为它们没有保留相关的语句,例如,说推荐者A优于B时甚至连期望值也没有。而且,抽样规模越小,指标之间的差异就越小,另外对于非常小的抽样规模,所有指标都会坍缩为AUC度量。作者证明了通过应用一个修正项来提高抽样指标的性能是可行的:通过最小化不同的标准,如偏差或均方误差。最后,对原始抽样指标及其修正变量进行了实证评估。
综上所述,作者建议在度量计算中应避免抽样,但是如果实验研究需要抽样,那么作者所提出的修正项可以提高估计的质量。
最佳学生论文奖获奖论文为《TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations》。深度学习的成功部分得益于各种大规模数据集的可用性。
这些数据集通常来自个人用户,并且包含诸如性别、年龄等隐私信息。用户对数据共享的隐私担忧阻碍了众包数据集的生成或使用,并导致对新的深度学习应用程序的训练数据的渴求。一个自然的解决方案是在用户端对原始数据进行预处理以提取特征,然后只将提取的特征发送到数据采集器。不幸的是,攻击者仍然可以利用这些提取的特征训练对抗分类器来推断私有属性。一些现有技术利用博弈论来保护私有属性。
然而,这些防御措施是针对已知的初级学习任务设计的,提取的特征对于未知的学习任务效果不佳。为了解决学习任务未知或变化的情况,作者提出了一种基于匿名中间表示的任务无关隐私的数据众包框架TIPRDC。该框架的目标是学习一个特征抽取器,它可以隐藏中间表征中的隐私信息,同时最大限度地保留原始数据中嵌入的原始信息,供数据采集器完成未知的学习任务。
作者设计了一种混合训练方法来学习匿名中间表示:(1)针对特征隐藏隐私信息的对抗性训练过程;(2)使用基于神经网络的互信息估计器最大限度地保留原始信息。他们广泛地评估了TIPRDC,并将其与使用两个图像数据集和一个文本数据集的现有方法进行了比较他们的结果表明,TIPRDC大大优于其他现有的方法。本文的工作提出了第一个任务独立隐私尊重数据众包框架。
来自弗吉尼亚大学的Mengdi Huai、Jianhui Sun、Renqin Cai、Aidong Zhang和来自纽约州立大学布法罗分校的Liuyi Yao获得了最佳论文奖的亚军,获奖论文是《Malicious Attacks against Deep Reinforcement Learning Interpretations》。
近年来,深度强化学习(DRL)得到了迅速的发展,它是深度学习和强化学习(RL)相结合的产物。然而,深度神经网络的采用使得DRL决策过程不透明,缺乏透明度。基于此,人们提出了各种DRL解释方法。然而,这些解释方法隐含着一个假设,即它们是在可靠和安全的环境中执行的。在实践中,顺序agent-环境交互将DRL算法及其相应的下游解释暴露在额外的对抗性风险中。
尽管恶意攻击盛行,但目前还没有研究针对DRL解释的恶意攻击的可能性和可行性。为了弥补这一差距,本文研究了DRL解释方法的脆弱性。具体来说,作者首先介绍了针对DRL解释的对抗性攻击的研究,并提出了一个优化框架,在此基础上可以得到最优的对抗攻击策略。此外,作者还研究了DRL解释方法对模型中毒攻击的脆弱性,并提出了一个算法框架来严格描述所提出的模型中毒攻击。
最后,作者进行了理论分析和大量实验,以验证所提出的针对DRL解释的恶意攻击的有效性。这篇论文将深度学习和强化学习结合(DRL),并证明了其在众多序列决策问题中动态建模的能力。为了提高模型的透明度,已经有研究提出了针对DRL的各种解释方法。但是,这些DRL解释方法隐式地假定它们是在可靠和安全的环境中执行的,但在实际应用中并非如此。弗吉尼亚大学的研究团队调查了一些DRL解释方法在恶意环境中的漏洞。
具体而言,他们提出了第一个针对DRL解释的对抗性攻击的研究,提出了一个优化框架来解决所研究的对抗性攻击问题。
在继汤继良、盛胜利、唐杰等华人学者在本届SIGKDD大会上荣获了包含新星奖、时间检验研究奖、时间检验应用科学奖在内的三项大奖外,Ang Li,Mengdi Hua等华人作者也荣获了最佳学生论文奖及最佳论文亚军奖。华人作者在本届会议表现出色!
想要查看更多今年KDD会议的详细信息,可以移步AMiner会议智图开放平台KDD 2020专题全析图(https://www.aminer.cn/conf/kdd2020),其内容包括论文、作者、华人学者、一作华人学生、论文PPT和视频等多维分析服务,是参会学者的会议智能助理。