2019年末,一场突如其来的新型冠状病毒肺炎疫情迅速蔓延,并造成全球大流行,截止5月18日全球累计确诊病例达470万。全世界的科研人员、医疗人员、政府工作人员和公众渴望获得开放、全面的新冠知识以对抗新型冠状病毒。为此,清华大学AMiner和智谱.AI团队收集整理了前期人工整理的COVID-19开放知识图谱,并进一步融合,构建了一个大规模、结构化新冠知识图谱(COKG-19)。
COKG-19旨在帮助发布者和科研人员识别和链接文本中的语义知识,并提供更多智能服务和应用。目前,COKG-19包含了505个概念、393个属性、26282个实例和32352个知识三元组,覆盖了医疗、健康、物资、防控、科研和人物等。此外,COKG-19是一个中英文双语知识图谱。与此同时,联合团队还进一步收集了开放新冠论文数据(例如CORD-19),以构建一个更为全面、细粒度的新冠知识图谱。
COKG-19第一版构建流程包括Schema层融合、实例数据层的融合和知识图谱的存储与发布。
团队通过语义匹配和排岐方法,将相同含义的概念进行合并,将同名不同义的概念进行区分;其次,根据相关专家的意见对排歧合并后的概念间关系进行修正和补充,例如删除冗余概念,细分病毒等专业子类,修正疾病的子类等;最后得到的COKG-19概念层共包含505个概念,其中顶层概念为22个(疾病、症状、药物、医疗设备、病毒、防控等),大致可划分为生物学、流行病学和通用百科三个方向。
对于属性的排歧与合并也采取类似的语义融合方法处理,并将不同domain和range的概念进行区分,共包含393个属性。将原有知识图谱的全部实例进行归纳并进行语义排歧,并根据融合后的图谱Schema,修正其中的错误数据。同时,根据原有图谱中实例与概念间的关系,将实例与已构建好的概念层进行关联,最后筛选出26282个实例。
团队将构建好的Schema与实例数据进行合并,并利用专业翻译工具将概念、属性和实例进行翻译得到对应的英文数据。然后,根据已有数据将概念和实例数据组合成知识三元组(实体-关系-实体、实体-属性-值),输出三种不同的知识图谱存储格式:JSON-LD文件、OWL/RDF文件、以及Neo4j图数据库文件。
首先,利用专用实体识别工具(例如PubTator)对CORD-19论文数据进行实体识别,共识别出Gene、Virus、Chemical、Disease等18种类型实体。其次,根据概念的英文名称和已构建好的COKG-19概念层进行语义合并和去重。
最终,CORD-19与COKG-19概念合并后共包含510个概念,比COKG-19第一版增加了Compound(化合物),SNP(单核苷酸多态性),BiologicalProcess(生物过程)等5个概念和相关属性。在实例数据进行融合阶段,团队利用了WikiData百科数据作为辅助知识,实现对异构和跨语言实例的对齐。例如两个实例能够链接到同一WikiData页面,则认为是相同实体并将其合并。
此外,经过分析CORD-19数据中抽取的部分实例所属概念分类粒度不够细的问题(如:大量病毒被分类为生物或组织概念),将其进行整理并全部分到对应的细粒度概念下。经过合并、去重之后,COKG-19中共包含510个概念,414个属性和76万实例。
此外,我们利用CORD-19数据集中提供的PMID(PubMed的文章唯一标识)信息将融合后COKG-19中的实例数据与CORD-19中的论文数据进行了关联,论文数据包括(题目、作者、关键词等信息)。构建流程:COKG-19的应用除了可作为基础的科研用知识数据库之外,还可以提供实体链接和知识检索等功能。
基于COKG-19图谱,团队利用lattice LSTM和Scispacy等模型和工具,实现了基于知识图谱的中英文双语文本实体链接工具。该实体链接工具已经应用于AMiner知识疫图智能驾驶舱(https://covid-dashboard.aminer.cn)系统的事件文本数据语义分析固件中,为全球疫情风险指数的分析提供了坚实的知识基础和工具。
针对COKG-19中知识的检索可基于实体排岐和全文索引等简单实现。融合多种知识数据之后,COKG-19本身就为更深层次的知识挖掘提供了非常丰富的知识数据基础。例如,研究者可以方便地获得一些关键实体(基因、药物等)间的关联关系,从而为新冠肺炎治疗药物的潜在化合物筛选提供帮助。
COKG-19知识图谱的构建充分利用了开源社区(OpenKG等)和领域专家的力量,同时又应用了实体识别、语义消岐、知识融合等多种自然语言处理和机器学习算法,充分展现了AI+大数据技术在快速应对疫情过程中的广泛作用。
AMiner科技情报大数据挖掘与服务系统平台AMiner,由清华大学计算机系研发,系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,已成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
智谱.AI是由清华大学(Tsinghua University)孵化出的人工智能(AI)科技公司,旨在打造先进的认知计算引擎,为研究和创新领域提供强大的数据支持和后台服务。智谱.AI致力于通过利用其在超大规模网络分析、深度隐含语义挖掘和认知推理等技术方面的优势,帮助解决研究机构及政府机构当前面临的学术挑战及社会热点问题。