信息检索领域的顶级学术会议ACM SIGIR 2020,将于今年7月25-30日全程在线举行。作为CCF推荐的A类国际学术会议,SIGIR历来都是互联网业内关注的焦点。ACM SIGIR会议(全称为ACM Special Interest Group on Information Retrieval,国际计算机协会信息检索国际会议)创始于1971年,至今已有四十多年的历史。
2011年,SIGIR曾首次在北京举行,而今年原定于在西安召开的第43届SIGIR盛会,因为疫情改为全部线上举办。
据悉,今年SIGIR论文投稿创历史新高,共收到论文投稿总数1180篇,总共录取340篇。其中,共收到555篇长文投稿,仅有147篇长文被录用,录用率约26%;共收到了507篇短文投稿,录用153篇,录取率为30%。来自32个国家的1221名作者为录用论文做出了贡献。
本次会议邀请到了6位重磅Keynote嘉宾:多伦多大学Geoffrey E. Hinton教授、西安交通大学徐宗本院士、谷歌Elizabeth F. Churchill博士、杜伊斯堡-埃森大学Norbert Fuhr教授、美国国家标准与技术研究院Ellen M. Voorhees博士、悉尼大学Dacheng Tao教授等,他们将为大会带来精彩报告。
AMiner上线了SIGIR 2020最新专题,收录了今年录用的所有论文,并对过去历年来SIGIR的录用论文数据进行了分析,后期还将陆续推出论文数据分析与论文精读等内容,为大家详解SIGIR 2020最新动态。
在2015年至2019年的五年间,在SIGIR发表的论文作者,男性比例占据了84%,女性仅占16%;这些作者主要来自美国、中国、意大利、日本、英国等国家。
根据对近5年SIGIR论文的关键词提取,可以看到SIGIR的关键词主要集中在信息检索、网络检索、问答、社交网络等领域。
在过去五年中,在SIGIR发表论文的TOP10作者详见下图。其中国内五名学者上榜,仅清华就占据了四席。排在首位的是国际人工智能领域著名专家、荷兰皇家艺术与科学院院士、荷兰国家人工智能创新中心主任、荷兰阿姆斯特丹大学教授Maarten de Rijke,五年里他在SIGIR共发表了40篇论文。
Maarten的主要研究领域包括自然语言处理、信息检索、知识挖掘等,他于2017年获得代表国际信息检索领域终身成就的Tony Kent Strix奖。
排在第二位的是滑铁卢大学教授、谢尔顿计算机科学系主席Jimmy Lin,他共发表了28篇论文。他的主要研究兴趣在于构建帮助用户处理大数据的工具,研究方向主要在于信息检索、自然语言处理和数据库的交叉领域,专注于大规模分布式算法和数据分析基础架构。
中国人工智能学会常务理事、信息检索与内容安全专委会副主任、清华大学教授马少平,清华大学计算机科学与技术系副教授张敏并列第三位,他们都发表了25篇论文。马少平教授主要从事智能信息处理方面的研究工作,包括模式识别、文本信息检索、中文古籍的数字化与检索等。张敏主要研究领域为信息检索与推荐、用户行为分析、机器学习。
清华大学计算机科学与技术系教授刘奕群排名第四,他共发表了22篇论文。他的主要研究领域集中在信息检索、互联网搜索技术以及自然语言处理研究方面,曾获得CIKM 2018最佳论文奖、SIGIR 2017最佳学生论文奖、AIRS 2018最佳论文奖等学术奖励等。
排名第五位至第十位的分别是,马萨诸塞大学阿默斯特分校计算机科学特聘教授、ACM会士W. Bruce Croft,格拉斯哥大学研究员Craig Macdonald,中国科学院网络数据科学与工程重点实验室研究员郭嘉丰,格拉斯哥大学博士Leif Azzopardi,中国科学技术大学教授何向南。在过去五年间,引用量TOP10论文主要发表于2015年与2017年年间。
Accurately interpreting clickthrough data as implicit feedback(2017)引用量:1497作者:Thorsten Joachims,Laura A. Granka,Bing Pan,Helene Hembrooke,Geri Gay这篇文章研究了在WWW搜索中从点击数据生成的隐式反馈的可靠性。
使用眼动追踪分析用户的决策过程,并将隐式反馈与手动相关性判断进行比较,作者得出结论,点击是有益的,但存在偏见。尽管这使得将点击次数解释为绝对相关性判断很困难,但我们显示,从点击次数中得出的相对偏好平均而言是相当准确的。
Personalizing search via automated analysis of interests and activities(2017)引用量:1091作者:Jaime Teevan,Susan T. Dumais,Eric Horvitz这篇文章也是SIGIR2017的十年最佳论文得主。
在该文中,作者构想和研究了一种搜索算法,这种算法考虑了用户之前与内容之间的大量互动,以个性化用户当前的网页搜索。作者没有依赖不切实际的假设(人们在搜索时能够准确地确定目标),而是探究利用包含用户兴趣这一隐含信息的技术。这些信息可用于在相关反馈框架(relevance feedback framework)内对网页搜索结果进行重新排序。
作者利用与搜索相关的信息(如之前的查询和访问过的网页)和用户的其他相关信息(如用户阅读和创建的文档和邮件)构建大量符合用户兴趣的模型。该文的研究显示用户的大量表征和语料对个性化尤为重要,而逼近这些表征、为个性化搜索提供高效的客户端算法也是可能的。最终,证明这种个性化算法可以大幅改善当前的网页搜索。
Image-Based Recommendations on Styles and Substitutes(2015)引用量:853作者:Julian J. McAuley,Christopher Targett,Qinfeng Sh,Anton van den Hengel在这篇文章中,作者认为人类不可避免地会对物体之间的关系产生一种感觉,其中有些是基于它们的外表,有些对象可能被视为彼此的替代品(如两条牛仔裤),而另一些则可能被视为互补(如一条牛仔裤和一件相配的衬衫)。
这些信息决定着人们的许多选择,从买衣服到相互交流。作者试图根据物体的外观来模拟人类对物体之间关系的感觉,本文提出的的方法不是基于用户注释的细粒度建模,而是基于捕捉尽可能大的数据集,并开发一种可伸缩的方法来揭示人类对其中视觉关系的概念。
作者把这个问题归结为一个定义在相关图像上的网络推理问题,并提供了一个大规模的数据集来进行训练和评估,作者开发的系统能够在众多其他应用程序中推荐哪些衣服和配饰能够很好地搭配,而哪些不搭配。
Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks(2015)引用量:573作者:Aliaksei Severyn,Alessandro Moschitti
Fast Matrix Factorization for Online Recommendation with Implicit Feedback(2016)引用量:435作者:Xiangnan He,Hanwang Zhang,Min-Yen Kan,Tat-Seng Chua
Twitter Sentiment Analysis with Deep Convolutional Neural Networks(2015)引用量:415作者:Aliaksei Severyn,Alessandro Moschitti
Neural Factorization Machines for Sparse Predictive Analytics(2017)引用量:352作者:Xiangnan He,Tat-Seng Chua
RGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models(2017)引用量:254作者:Jun Wang,Lantao Yu,Weinan Zhang,Yu Gong,Yinghui Xu,Benyou Wang,Peng Zhang,Dell Zhang
Rank-geoFM: A ranking based geographical factorization method for point of interest recommendation(2015)引用量:226作者:Xutao Li,Gao Cong,Xiaoli Li,Tuan-Anh Nguyen Pham,Shonali Krishnaswamy
Monolingual and Cross-Lingual Information Retrieval Models Based on (Bilingual) Word Embeddings(2015)引用量:210作者:Ivan Vulic,Marie-Francine Moens
更多SIGIR 2020信息请访问:https://www.aminer.cn/conf/sigir2020