2019年6月19日,清华大学人工智能研究院智能信息获取研究中心成立仪式暨学术前沿报告会在清华大学FIT楼举行。清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌。清华大学人工智能研究院常务副院长孙茂松教授主持成立仪式。
这是人工智能研究院成立的第6个中心,此前已经成立了5个研究中心,分别如下:知识智能研究中心(李涓子教授任中心主任),听觉智能研究中心(郑方研究员任中心主任),基础理论研究中心(朱军教授任中心主任),智能机器人研究中心(孙富春教授任中心主任),智能人机交互研究中心(史元春教授任中心主任)。
尤政院士在致辞中指出,在当前信息爆炸时代,人类有限的认知能力和近乎无限的海量信息之间矛盾日益显著。
智能信息获取研究旨在实现人与信息的高效匹配,在这一领域的技术突破和应用已经也必将继续对社会发展和大众生活产生巨大影响。希望智能信息获取研究中心更好地集中优势力量,以智能信息处理研究为切入点,取得一批具有重大影响的原创成果,培养一批人工智能领域的优秀人才,带动对人工智能的深入研究与应用,更好地服务于国家和清华的人工智能发展战略。
张钹院士代表清华大学人工智能研究院致辞。
他在致辞中表示获取信息是每个人生活中不可或缺的一件事,如何利用人工智能来改善信息获取的质量和效率,是当前一个迫切的需求,也是对人工智能提出的巨大挑战。如今的信息获取技术已远远不能满足人类的需求,互联网规模越来越大,内容越来越多元化,给智能信息提取造成了很大的困难。张院士提出我们可以将互联网看作一个智能体,智能信息获取相当于智能体之间的相互通讯和意图的交换。
互联网作为一个智能体的巨大特色是拥有大量的知识和数据,而知识和数据作为智能的基础,智能信息获取迫在眉睫。同时他表明智能信息获取研究中心在研究过成长很注重不同学科的交叉,并与心理系有紧密的合作。但同时我们必须要充分意识到人工智能的道路十分艰难,道阻且长,希望智能信息获取中心能有效地帮助用户从浩如烟海的信息海洋中迅速准确地获取有价值的信息。
揭牌仪式上,张钹院长和尤政校长向清华大学长聘教授马少平颁发了智能信息获取研究中心主任聘书。清华大学人工智能研究院同时聘请了新加坡国立大学蔡达成教授、加拿大蒙特利尔大学聂建云教授为智能信息获取研究中心学术顾问。
计算机系副教授张敏担任中心副主任,中心成员还有计算机系朱小燕教授、黄民烈副教授、刘奕群副教授和心理学系钱静副教授,此外中心还有产业界的成员,包含搜狗公司副总裁许静芳、华宇元典公司总经理邹邵坤和副总经理李东海。
启动仪式结束后,举行了智能信息获取学术研讨交流会。智能信息获取研究中心主任马少平教授首先为大家介绍了中心的关注领域、研究内容和人员构成。智能信息获取研究中心旨在研究如何智能地帮助人们更简单和高效地获得、分析和处理信息,重点关注理论研究、数据计算平台构建和促进学术交流合作。主要的研究内容包括智能信息检索、个性化推荐与用户建模、智能问答和智能对话系统以及用户行为分析与挖掘。
来自加拿大蒙特利尔大学的聂建云教授为大家带来了题为“Representation learning in information retrieval – What to represent”的特邀报告。报告中,聂建云教授以信息检索领域中文档和查询词的表示学习为切入点,深入探讨了传统的内容匹配和基于神经网络的内容表示两种检索思路的优劣与结合方式,指出两类特征对于检索来说同样重要。
此外,聂教授还特别指出,研究数据、匹配信息的融合方式以及知识的应用方式在信息检索研究中仍然是巨大挑战,期待研究中心在相关领域取得更大突破。
清华大学张敏副教授的报告围绕“个性化推荐中的可解释性与公平性”这一话题开展。张敏副教授指出,可解释性和公平性是当前信息检索、特别是个性化推荐领域的研究重点和热点。
张敏副教授介绍了团队在特征、评论、商品三个层次上,将用户产生内容及基于知识图谱的规则推理学习与推荐算法相融合,开展的可解释性推荐方法研究成果;同时还介绍了在推荐公平性方面,团队在深入理解用户行为、改进推荐算法和改善评价指标方面的研究工作;最后,提出可解释性和公平性是两个紧密关联的具有挑战性的问题,呼吁更多研究者们一起加入到相关研究中来,以提升用户对推荐内容的满意度。
清华大学刘奕群副教授做了题为“群体智能支撑的互联网搜索技术”的报告。在报告中,刘奕群副教授首先强调了搜索对信息化社会和信息安全具有重要的意义,并简要回顾了研究团队在利用群体智能改进互联网搜索技术方面取得的一系列进展。随后,刘奕群副教授介绍了团队在用户行为指导的机器阅读模型和相关性计算两方面最新研究成果,阐述了通过分析人类认知行为,改进计算模型的新研究范式。
搜狗公司副总裁许静芳博士为大家带来了题为“问答—精准信息的智能获取方式”的报告。许静芳博士带大家回顾了信息获取方式的演化历程,指出随着交互方式和用户习惯的变化,问答引擎在为用户带来精准信息方面扮演着越来越重要的角色。问题的表达、答案的连接和答案的生成是问答研究中面临的主要挑战,许静芳博士介绍了相关的研究进展,同时期待能与研究中心在相关方向取得更多研究成果。
清华大学黄民烈副教授的报告主题为“对话系统中的强语义、弱语义”。黄民烈副教授首先为大家介绍了在智能对话场景下,强语义信息与弱语义信息在相关研究中的优劣和应用情况。他指出语义问题、一致性问题和交互性问题是现在对话机器人研究领域的主要挑战,并为大家介绍了课题组通过结合知识图谱信息、神经计算等手段在应对这些挑战的研究进展与成果。
智能信息获取研究中心主任马少平教授最后感谢学界和业界同仁的积极参与,并表示智能信息获取研究中心今后将整合多学科交叉的优势力量,深入开展相关研究,以促进清华和国家信息获取和人工智能研究与发展为宗旨,打造具有广泛影响力的学术研究平台与学术交流中心。马少平教授还介绍了研究中心的开放数据集资源,供学界和业界研究使用。
信息获取是人们感知、学习和理解世界的第一步,也是至关重要的一步。
智能信息获取研究中心旨在研究如何智能地帮助人们更简单和高效地获得、分析和处理信息。开展相关理论研究:结合认知心理学、经济学等相关领域,探究人类信息获取行为的内在规律,研究支持智能信息获取、处理和分析的基础理论和方法。构建数据计算平台:建设包含互联网数据、用户行为数据的数据平台和支持智能检索、个性化推荐、智能问答、对话系统的智能计算平台。
促进学术交流合作:举办开放的、国际化的与人工智能和信息获取相关学术活动,增进学术交流;普及智能信息获取和处理分析技术,促进产学合作。
基于用户的搜索引擎新能评价及满意度分析。如何在存在诸多偏置的环境下对搜索引擎的性能进行有效和准确的评价是一个挑战性的问题,中心基于收益与代价因素,设计二者融合的用户满意度研究体系与用户停止评价策略。相关研究获得了顶级国际会议SIGIR2017的最佳学生论文奖。
针对互联网搜索的深度点击模型与异质结果排序。搜索结果页中丰富多样的多模态结果(文本、图像、视频、新闻、百科知识……)使得传统基于文本相似度的排序方式面临极大挑战,中心基于文本、视觉以及结构等多种类型的信息,对异质结果进行重排序。相关研究论文在重要国际会议CIKM 2018上获得全面最佳论文奖。个性化推荐中的用户行为和满意度研究。
用户的行为被广泛应用于推荐系统的训练和评价中,但其与用户实际偏好和满意度之间存在差异。针对该问题,中心设计了深入的用户实验并结合大规模真实日志分析,全面探究了行为、偏好和满意度之间的关系,并引入质量和用户负向体验的效应,改善了隐式反馈的构建和在线评价指标,提出了质量和负向体验的识别模型。相关研究论文发表在SIGIR 2018,WWW 2019,SIGIR 2019等顶级会议上。
可解释的推荐算法研究及应用。推荐结果的可解释性一直是推荐领域重点关注的研究内容。针对这一课题,一方面,中心尝试从用户的主观偏好来解释推荐结果,利用用户的历史评论和社交关系等信息给出推荐解释;另一方面,中心还从知识图谱中挖掘除了商品间的关系信息,尝试利用这些客观的商品互补/互斥关系来进行推荐的解释。
相关研究论文发表在WSDM 2015,CIKM 2018,WWW 2018,WWW 2019等顶级国际会议上。常识知识驱动的开放领域对话生成。常识只是在许多自然语言处理任务中起到了至关重要的作用。此项工作中,我们提出了一种全新的开放领域对话生成模型,来展示大规模的常识知识如何促进自然语言的理解与生成。这是将大规模常识知识引入对话生成任务的首次尝试。
与其他独立利用知识库三元组或实体的模型不同,中心提出了图注意力模型,将知识图谱的信息结构化地作为一个整体进行表示。相关研究论文在顶级国际会议IJCAI 2018上获杰出论文奖。情绪化聊天机器人。情绪智能是人类智能行为的重要特征。在对话系统中感知情绪和表达情绪对于提高对话系统的一致性和交互性十分重要。
中心提出了情绪化对话内容生成模型,首次在大规模神经对话生成模型中考虑了情感因素,并采取情绪状态嵌入、内部记忆、外部记忆等技术控制文本中的情感表达。论文发表在AAAI 2018。