作为世界数据挖掘领域最高级别国际会议,原定于8月23日~27日在美国圣地亚哥举行的第26届ACM SIGKDD,由于疫情影响,将以线上形式举行。一直以来,KDD为来自学术界、企业界的研究人员和数据挖掘从业者提供了学术交流和展示研究成果的理想场所。而因其严苛的审稿与接收率,KDD一直保持着它在数据挖掘领域的权威性和知名度。
KDD 2020官方已经公布了本年度的论文录取情况,其中Research Track共收到1279篇论文,共有216篇接收,接收率为16.8%;Applied Data Science Track共收到756篇论文,共有121篇被录用,接收率为16%。根据KDD近五年来的论文录用情况来看,KDD的投稿数量呈逐年上升趋势,数据挖掘正受到越来越多学者的关注。
其中,今年Research Track的接收率相较于去年有所提升,但仍然低于过去几年的接收率;而Applied Data Science Track,近两年的接收率呈下降趋势。想要高中KDD,可谓是难度是直线上升。下面我们就来看看,根据AMiner平台对KDD(2016-2019)过去五年来接收论文与学者数据的统计分析,KDD收录论文的关键词、高产作者、高被引作者以及高被引用论文的具体情况。
KDD大会涉及的议题大多跨学科且应用广泛。过去五年,KDD接收论文的关键词主要集中在机器学习、深度学习、社交网络、异常检测、多任务学习、数据科学等领域。根据AMiner对过去五来年KDD接收论文作者数据的分析,可以看出,男性作者占比达84.53%,女性作者仅占15.47%。
从学者分布情况来看,来自美国和中国的投稿学者远超过其他国家,分别占比44.46%、26.78%,日本、印度、新加坡等国家分列第三至第五位。从这份榜单可以看出,排在前10的作者中华人学者就占据了9位,遥遥领先于其他国家。这些作者近五年来在KDD大多发表了14篇以上论文。
熊辉,现任百度研究院副院长、百度商业智能实验室主任、百度机器人与自动驾驶实验室主任等,美国罗格斯-新泽西州立大学罗格斯商学院管理科学与信息系统系正教授(终身教授)、院长讲席教授,并担任中国科学技术大学大师讲席教授(客座),IEEE Fellow。熊辉教授一直致力于数据挖掘、大数据分析、商务智能、互联网证券和信息安全等领域的科学研究,近年来共发表高水平学术论文180余篇。
叶杰平,滴滴人工智能实验室负责人,滴滴出行副总裁,美国密歇根大学教授,IEEE Fellow。美国明尼苏达大学博士毕业,主要从事机器学习、数据挖掘和大数据分析领域的研究。他在国际顶级期刊和会议发表高水平论文200余篇,引用次数超过8000次,担任包括IEEETPAMI、DMKD、IEEETKDE、NIPS、ICML、KDD等多个国际顶级期刊编委及国际顶级会议程序委员会主席和领域主席。
崔鹏,清华大学计算机系长聘副教授,博士生导师。研究领域包括大数据环境下的因果推理与稳定预测、网络表征学习、社会动力学建模,及其在金融科技、智慧医疗及社交网络等场景中的应用。他已在数据挖掘及多媒体领域顶级国际期刊和会议上发表论文百余篇,并先后获得7项国际会议及期刊最佳论文奖,包括中国入选数据挖掘领域顶级国际会议KDD最佳论文专刊的首篇论文。
美国伊利诺伊大学香槟分校(UIUC)计算机系教授韩家炜,清华大学计算机系教授朱文武,清华大学计算机系教授唐杰,布法罗大学计算机科学与工程系副教授高静,伊利诺伊大学厄本那-香槟分校计算机科学系的副教授Hanghang Tong,卡内基梅隆大学计算机科学系教授Christos Faloutsos,京东集团副总裁、京东数字科技首席数据科学家郑宇也相继位列高产作者TOP榜单。
这份高引学者榜单与高产作者有较大不同,不少国外学者上榜,其中高产作者中的崔鹏副教授与朱文武教授同样榜上有名。Carlos Guestrin是华盛顿大学Paul G. Allen计算机科学与工程学院的亚马逊机器学习教授。他是Turi(最初是GraphLab Inc.)的联合创始人兼首席执行官,专注于大规模机器学习和图形分析的研究。
他曾在KDD、IPSN、VLDB、NIPS、ICML等多个顶级学术会议及期刊发表过多篇论文,曾荣获IJCAI计算机与思想奖和总统科学家与工程师早期职业奖(PECASE)。陈天奇是机器学习领域著名的青年华人学者之一,本科毕业于上海交通大学ACM班,硕士阶段也就读于上海交通大学,博士毕业于华盛顿大学计算机系,研究方向为大规模机器学习。
他曾参与开发了XGBoost、Apache MxNet、Apache TVM (https://tvm.ai/)等著名机器学习工具,是最大开源分布式机器学习项目DMLC的发起人之一。Jure Leskovec,斯坦福大学计算机科学系的副教授,也是图网络领域的专家,图表示学习方法node2vec和GraphSAGE作者之一。
他还是Pinterest的首席科学家,以及Chan Zuckerberg Initiative慈善基金会的首席调查员。他的研究领域包括网络结构的统计建模、网络演化、以及信息、病毒等在网络上的传播,同时他还致力于文本挖掘和机器学习的应用等。
斯坦福大学计算机科学专业博士生Aditya Grover,加利福尼亚大学欧文分校的计算机科学助理教授Sameer Singh,微软研究院的研究员Marco Túlio Ribeiro,清华大学副教授崔鹏,清华大学计算机系教授朱文武,比萨大学教授Dino Pedreschi,比萨ISTI-CNR的研究员Mirco Nanni位列TOP10。
这是陈天奇发表于2016年的文章,主要是大名鼎鼎的XGBOOST算法的介绍。XGBOOST广泛用于各种比赛和实际应用中,是非常实用的算法。提升树是非常有效且广泛应用于机器学习的方法。在这篇论文中,作者描述了可扩展的、端到端的提升树系统,叫做XGBoost。在很多机器学习的挑战中,数据科学家经常使用该系统实现卓越的效果。作者提出了一个针对稀疏数据的新颖方法---稀疏感知和加权的分位近似树。
更重要的,他们提出了一些有效的方法来实现缓存,数据压缩,分片构建提升树系统。综合这些有效的特点,在数据规模超过10亿的情况下,XGBoost要比当前的其它系统使用较少的资源。该文是斯坦福大学的Aditya Grover、Jure Leskovec发表于2016年的一篇文章。
在论文中作者提出,基于网络中节点和边的预测任务中的特征工程总是很复杂,虽然表示学习的自动学习特征已经有很大的帮助,但现有的特征学习方式无法对网络中连接模式的多样性进行足够的捕捉。本论文提出了一种对网络中的节点学习连续特征表达的框架——node2vec。在这个算法中,学习了一种结点映射到低维特征空间,同时最大限度的保留网络里结点的邻域(neighborhoods)。
定义网络的结点邻域并涉及了一种(biased)偏置的随机游走过程,将这些随机游走转化为计算嵌入的方法是一种智能的优化方式。首先为每个节点分配一个随机层,(例如长度为N的高斯向量),然后对于每对源相邻节点,作者希望通过调整这些层来最大化它们的点积。同时最后,最小化随机节点对的点积,这样做的效果是学习了一组嵌入,这些嵌入倾向于在相同的遍历过程中高点积的节点。
该文展示了node2vec相对于现有的最新技术在多标签分类和链接预测中,在几个来自不同领域的实际网络中的功效,代表了一种有效学习复杂网络中与任务无关的最新表示的新方法。机器学习模型尽管已经得到了广泛采用,但大部分仍旧是黑箱。然而,理解预测背后的原因在评估该预测是否可信上是相当重要的,这是人们计划基于预测采取行动或选择是否需要部署一个新模型时的基础。
这样的理解也能提供对模型的见解(insight),其可被用于将不值得信任的模型或预测转化得可信任。在本论文中,作者提出了LIME——一种可通过围绕预测局部地学习一个可解读的模型,从而以一种可解读的和可信的方式解释任何分类器的预测的全新解释技术。
他们还提出了一种以非冗余方式通过给出代表性的单个预测及其解释来对模型进行解释的方法,这种方法将这一任务视作是一个子模块的优化问题(submodular optimization problem)。通过解释用于文本(如随机森林)和图像分类(如神经网络)的不同模型而证明了这些方法的灵活性。
通过在多种需要信任的情形上进行了模拟的和以人类为对象的全新实验,从而展示了解释的实用性——这些任务需要一个人决定是否相信一个预测、在模型之间做出选择、改进不值得信任的分类器和确定一个分类器不应该被信任的原因。