大规模、结构化新冠知识图谱的实现

2019年末，一场突如其来的新型冠状病毒肺炎疫情迅速蔓延，并造成全球大流行，截止5月18日全球累计确诊病例达470万。全世界的科研人员、医疗人员、政府工作人员和公众渴望获得开放、全面的新冠知识以对抗新型冠状病毒。为此，清华大学AMiner和智谱.AI团队收集整理了前期人工整理的COVID-19开放知识图谱，并进一步融合，构建了一个大规模、结构化新冠知识图谱(COKG-19)。

COKG-19旨在帮助发布者和科研人员识别和链接文本中的语义知识，并提供更多智能服务和应用。目前，COKG-19包含了505个概念、393个属性、26282个实例和32352个知识三元组，覆盖了医疗、健康、物资、防控、科研和人物等。此外，COKG-19是一个中英文双语知识图谱。与此同时，联合团队还进一步收集了开放新冠论文数据(例如CORD-19)，以构建一个更为全面、细粒度的新冠知识图谱。

COKG-19第一版构建流程包括Schema层融合、实例数据层的融合和知识图谱的存储与发布。

团队通过语义匹配和排岐方法，将相同含义的概念进行合并，将同名不同义的概念进行区分；其次，根据相关专家的意见对排歧合并后的概念间关系进行修正和补充，例如删除冗余概念，细分病毒等专业子类，修正疾病的子类等；最后得到的COKG-19概念层共包含505个概念，其中顶层概念为22个(疾病、症状、药物、医疗设备、病毒、防控等)，大致可划分为生物学、流行病学和通用百科三个方向。

对于属性的排歧与合并也采取类似的语义融合方法处理，并将不同domain和range的概念进行区分，共包含393个属性。将原有知识图谱的全部实例进行归纳并进行语义排歧，并根据融合后的图谱Schema，修正其中的错误数据。同时，根据原有图谱中实例与概念间的关系，将实例与已构建好的概念层进行关联，最后筛选出26282个实例。

团队将构建好的Schema与实例数据进行合并，并利用专业翻译工具将概念、属性和实例进行翻译得到对应的英文数据。然后，根据已有数据将概念和实例数据组合成知识三元组（实体-关系-实体、实体-属性-值），输出三种不同的知识图谱存储格式：JSON-LD文件、OWL/RDF文件、以及Neo4j图数据库文件。

首先，利用专用实体识别工具（例如PubTator）对CORD-19论文数据进行实体识别，共识别出Gene、Virus、Chemical、Disease等18种类型实体。其次，根据概念的英文名称和已构建好的COKG-19概念层进行语义合并和去重。

最终，CORD-19与COKG-19概念合并后共包含510个概念，比COKG-19第一版增加了Compound(化合物),SNP(单核苷酸多态性),BiologicalProcess(生物过程)等5个概念和相关属性。在实例数据进行融合阶段，团队利用了WikiData百科数据作为辅助知识，实现对异构和跨语言实例的对齐。例如两个实例能够链接到同一WikiData页面，则认为是相同实体并将其合并。

此外，经过分析CORD-19数据中抽取的部分实例所属概念分类粒度不够细的问题（如：大量病毒被分类为生物或组织概念），将其进行整理并全部分到对应的细粒度概念下。经过合并、去重之后，COKG-19中共包含510个概念，414个属性和76万实例。

此外，我们利用CORD-19数据集中提供的PMID（PubMed的文章唯一标识）信息将融合后COKG-19中的实例数据与CORD-19中的论文数据进行了关联，论文数据包括（题目、作者、关键词等信息）。构建流程：COKG-19的应用除了可作为基础的科研用知识数据库之外，还可以提供实体链接和知识检索等功能。

基于COKG-19图谱，团队利用lattice LSTM和Scispacy等模型和工具，实现了基于知识图谱的中英文双语文本实体链接工具。该实体链接工具已经应用于AMiner知识疫图智能驾驶舱（https://covid-dashboard.aminer.cn）系统的事件文本数据语义分析固件中，为全球疫情风险指数的分析提供了坚实的知识基础和工具。

针对COKG-19中知识的检索可基于实体排岐和全文索引等简单实现。融合多种知识数据之后，COKG-19本身就为更深层次的知识挖掘提供了非常丰富的知识数据基础。例如，研究者可以方便地获得一些关键实体（基因、药物等）间的关联关系，从而为新冠肺炎治疗药物的潜在化合物筛选提供帮助。

COKG-19知识图谱的构建充分利用了开源社区（OpenKG等）和领域专家的力量，同时又应用了实体识别、语义消岐、知识融合等多种自然语言处理和机器学习算法，充分展现了AI+大数据技术在快速应对疫情过程中的广泛作用。

AMiner科技情报大数据挖掘与服务系统平台AMiner，由清华大学计算机系研发，系统2006年上线，吸引了全球220个国家/地区1000多万独立IP访问，数据下载量230万次，年度访问量超过1100万，已成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

智谱.AI是由清华大学(Tsinghua University)孵化出的人工智能（AI）科技公司，旨在打造先进的认知计算引擎，为研究和创新领域提供强大的数据支持和后台服务。智谱.AI致力于通过利用其在超大规模网络分析、深度隐含语义挖掘和认知推理等技术方面的优势，帮助解决研究机构及政府机构当前面临的学术挑战及社会热点问题。