知识疫图背后的故事之地区风险预测与基于搜索日志疫情预测技术实践

在AI TIME知识疫图专题的开篇，张鹏博士为大家介绍了清华大学AMiner团队联合多个研究团队和机构研发上线的“知识疫图”系统，一个集冠状病毒各种数据整合、大数据智能预测、知识图谱构建于一体的新冠综合服务平台。以成为全球新冠疫情智能驾驶舱为使命，知识疫图旨在打造一个基于知识的全球新冠疫情风险评估和复工辅助决策系统。

在张鹏老师的报告中，我们了解了知识疫图的目标，领略了知识疫图的丰富内容，也为其强大的功能和智能化的服务所折服。

知识疫图的“利器”在于其背后强大的科研团队，以及对知识、AI技术、大数据多年的挖掘、探索。本次疫情知识智能服务技术实践系列第2期我们有幸邀请到了来自清华大学计算机系的曾奥涵和叶子逸，为大家解密知识疫图中新冠肺炎地区风险预测和基于搜索日志疫情预测两大模块背后的技术实践。

疫情期间，为了能够运用所学知识贡献自己的微薄之力，曾奥涵开始了疫情可视化的探索之旅。在前期调研中，研究人员发现虽然国内外已有很多疫情可视化项目，但是它们大多存在一些问题。比如只有疫情数据，数据种类单一，或者只呈现数据，缺乏数据分析。研究人员克服以上缺点推出了知识疫图综合型平台，该平台能够让用户直观且全面的了解疫情。

作者曾奥涵在本次分享中主要介绍了知识疫图的疫情风险指数评估工作，内容包括风险指数的由来和模型的实现等。

AI Time是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子。AI Time旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，为大家打造一个知识分享的聚集地。

风险指数指的是一个国家或地区在某一时刻疫情的严重程度，通过将原始的疫情数据转化为直观的风险指数，让用户能直接地感知到疫情的严重程度。在风险指数评估地图项目中，知识疫图还结合疫情发展时间线，提供了动态播放功能，通过动态的风险指数播放用户可以实时地捕捉世界整体疫情变化。

要想做到风险指数的有效可视化展示，前提是能够有效量评估风险指数。有效评估各国家和地区的疫情风险指数，除了能够帮助用户更好的了解疫情的发展态势，同时也能对个人、企业、政府的复产复工决策提供指标参考。在地区风险指数的评估上，知识疫图结合了疫情数据以及预测模型，地区的人口，面积等客观因素，同时参考了约翰霍普金斯大学的全球卫生安全数据，提出独特的风险指数评估模型。

在医疗卫生领域，传染病的监测主要依赖医生和有关医学机构的临床报告。但在这个过程中，从患者出现传染病的相关症状到前往医院确诊并最终上报数据存在延迟。如果能够提前预测传染病的发展趋势就能够更好地协助国家、有关医疗机构采取必要的防控手段，从而有效制止传染病的进一步传播。因此，设计一个高效准确的传染病传播预测模型至关重要。

随着现代信息技术特别是互联网的快速发展，搜索引擎成为人们获取医疗相关讯息的重要工具，这些大量的讯息数据涉及人们对疾病的关注、对自身症状的描述等。在新冠病毒疫情预测的研究中，研究人员发现搜索引擎用户行为和新型冠状病毒发展趋势息息相关。利用以搜索日志为基础的用户行为数据，生成额外的特征信息，可以有效协助新冠肺炎传播的预测，以便政府有关部门可以及时采取措施。

在知识疫图项目中，叶子逸对基于搜索日志的新冠肺炎预测进行了深入研究。

研究发现，引入ERQ数据在绝大多数任务中都能够提升病情趋势的预测性能。但引入ERQ数据作为传染病预测模型特征时，需要考虑病情趋势相对ERQ趋势的滞后效应，滞后天数在3-5天，对ERQ特征进行聚类后叠加为多个特征比直接叠加效果更好。未来叶子逸将探索分析不同搜索意图下的搜索引擎用户行为，更好地将疫情发展与用户意图、用户行为关联起来。

科学技术的发展为这个时代带来了各方面的进步，无论是我们的日常生活还是面临突发灾难时应对的举措，而在这发展的背后离不开无数科研人员坚持不懈的辛勤探索和研究。在此，除了感谢两位嘉宾带来的精彩分享以外，也感谢他们利用自己的专业知识为疫情做出的贡献，希望大家都可以学有所成、学有所用。之后的AI TIME技术专题将继续解密知识疫图智能服务背后的技术实践，学习路漫，下期分享我们不见不散！