说到杭州,你会想到什么?是西湖,是灵隐寺,是雷峰塔,还是烟雨飘渺里的江南美景?作为浙江省的省会、长三角南翼的中心城市,杭州不仅是国际知名的旅游城市,也是中国重要的电子商务中心。2015年杭州经济总量位居中国大陆第十,并被《福布斯》多次评为“中国大陆最佳商业城市”。2018年底,以杭州为中心的杭州都市圈,面积达53239平方公里,居住人口2569.8万人。
作为阿里巴巴、网易等互联网企业的总部所在,杭州对互联网、物联网等领域的行业人员都具有较强的人口吸引力。
今天,学术君就带领大家一起通过AI+大数据,详细了解一下杭州的人才现状和实力。通过杭州市智慧人才地图可以看出,杭州市人才整体分布与发展情况,排名靠前,仅次于北京、上海、广州等一线城市。
具体而言,杭州市云计算、人工智能、大数据和物联网四个领域的高层次人才总数(四个领域高影响力期刊中近10年发文的学者数量)远超其它省会城市。其中,大数据领域的高层次人才凝聚数量最多,其次分别为云计算领域、人工智能领域和物联网领域。
此外,从图中可以看出,杭州市72.4%的重点领域高层次人才集中在下城区,从所属高校/机构来看,浙江大学、杭州阿里巴巴和浙江工业大学占据北京人才机构排名前三。
分领域来看,在人工智能领域,杭州市的人才健康指数为81.8,在全国排行第四。从区域分布上看,人工智能领域的高层次人才主要集中在下城区和江干区;从地区影响力方面分析,杭州市与其它城市相比,在基础科研影响力和基础科研热度上较为突出,浙江大学在该领域人才数量较多、成果影响较大。
在云计算领域,杭州市的人才健康指数为80.1,在全国排名第五。
从区域分布上看,云计算领域的高层次人才主要集中在下城区和江干区;从地区影响力方面分析,杭州市与其它城市相比,在基础研究与基础科研影响力上较为突出,在该领域的人才机构排名中,浙江大学一骑绝尘。在大数据领域,杭州市的人才健康指数为81.1,在全国排名第五。
从区域分布上看,大数据领域的高层次人才主要集中在下城区、江干区和西湖区;从地区影响力方面分析,杭州市与其它城市相比,在基础科研影响力和基础科研热度上较为突出,产业研究热度和产业科研影响力方面稍弱,在该领域的人才机构排名中,浙江大学在该领域人才数量较多、成果影响较大。
在物联网领域,杭州市的人才健康指数为80.2,在全国排名第五。从区域分布上看,大数据领域的高层次人才主要集中在下城区和江干区;从地区影响力方面分析,杭州市与其它城市相比,在基础科研影响力和基础研究热度上较为突出,在该领域的人才机构排名中,浙江大学、杭州电子科技大学位居前列。
《智慧人才地图》是智谱·AI借助科技情报大数据挖掘与服务系统平台AMiner,针对地区重点发展科技领域(材料技术、生物医药、人工智能、集成电路、新能源汽车、智能制造、智能电网)建立的智慧人才系统。
该系统选取近5年期间相关领域国际顶级期刊和会议所收录的全部论文数据,通过挖掘和分析论文数据,获取论文学者信息;通过命名排歧和信息抽取等大数据分析和挖掘技术,对重点科技领域的专家学者进行学者画像,构建领域人才智库,然后根据学者画像信息进行领域人才相关情报挖掘分析。
智慧人才系统提供基于大规模知识图谱的人才语义检索,智能理解用户查询的语义信息,自动从学科领域、人才姓名、研究兴趣、就职单位等多个维度对系统提供的专家智库进行快速而准确地检索,准确定位用户寻找的专家人才,并提供多维度人才语义属性的快速过滤和智能排序。除了自能的语义检索外,产品还为用户提供了专家/智库的收藏,以及对开通智库的浏览,从不同功能入口帮助用户快速找到目标专家。
智慧人才系统的亮点包括:以大数据技术为核心,构建超大规模多研究领域知识图谱,基于场景提供学者的智能匹配服务;提取基于各地区、研究领域的人才指标,对人才结构、发展目标等多维度进行分析和预测,提供对人才数据的可视化展示,实现对学者的“按图索骥”;产品采用SaaS模式下的微服务架构,可对于业务需求的变更进行快速响应和快速部署,实现对业务扩展的及时支持。
从人才地图中我们可以看到人工智能、大数据、云计算、物联网等等多个当下热门领域的多方面信息。所呈现的数据点面结合,既包括该市该领域的人才动态、城市人才分布、人才机构排名,也有该领域的全国人才分布、全国发展情况以及该城市与其他省份省会城市的影响力对比。
智慧人才系统算法解析:智谱AI人才地图的研发团队表示,该智慧人才系统依托清华大学高质量大规模知识图谱、深度隐含关联挖掘算法和认知图谱等核心技术,服务地方科技产业发展,展示符合地方发展方向的本地、全国和全球人才分布态势、人才流动趋势,可以为地方人才引进工作中的寻、评、引、用提供基于大数据的智能化支持,构建全球人才Global Positioning System,实现人才工作的按图索骥。
在算法使用上,智慧人才地图主要使用了人才指数算法和两种城市人才分析方法。人才指数算法:该算法模型是一种机器学习+专家经验的集成模型,内层根据学术人才评价指标特点分别采用使用LR,SVM,深度神经网络等机器学习算法。利用AMiner人工标注的不同领域、多层次学术机构的大量高质量学者数据库作为模型训练数据。在此基础上,外层封装专家知识的经验模型,组合而成城市人才评分模型。
为使该算法达到最优计算效果,该模型的训练采用了启发式规则+模型自主学习的联合算法,优化目标值也是从大量经过提纯的学者数据中,经过统计分析得到的。这样得到的算法模型,结合了大数据分析和专家先验知识,从而达到合理精准评分。
而计算城市人才指数得分的过程,就是将人才该城市的人才指标特征(顶尖学者发文数之和、H指数(h-index)之和、引用数之和等),输入到模型中,会得到所属的层级分类和具体得分,这个得分可以理解为和高等级的学术团体之间的差距。
城市人才分析方法:针对需求领域类型的不同分别采用以下2种方法:1.针对较为专业的领域方向,且和其他领域交叉较多,采用学者标注算法进行人才分析;使用2类算法对学者进行领域分析标注:a.AMiner学科知识图谱:对学者的发表论文中的实体,关系等信息进行抽取(其中实体抽取方法使用BERT+CRF和规则,关系抽取采用多种方式结合:包括规则和远程监督),再利用已构建的学科知识图谱推理对学者进行领域标注。
b.领域标注系统:这是一个以深度学习为核心算法的多标签标注系统,算法网络结构简单说明:先用BERT对学者多篇代表性论文进行Emmbedding,再使用多个的局部Attention层和全局Attention层进行特征的融合和提取,最后基于这些语义特征向量进行标签预测,即对学者进行领域的标注。
2.针对于相对独立的学科领域采用AMiner会议期刊库(包含大约40000个期刊会议)进行人才筛选分析;流程如下:专家标注期刊/会议→期刊/会议影响力排序→学者筛选→学者学术水平排序。