从15世纪下半叶至19世纪末的近代科学,到20世纪以来发展的现代科学,越来越多的科研工作者加入到了科学研究的队伍中,也产生了更加细化专业化的科学分支,如何发现有价值的科研兴趣?如何确定自己科研生涯的研究方向?如何能在提高科研产出数量的同时,增加自己文章被引率与影响力?当科学家站在科研工作的岔路口时,应当如何抉择?
随着论文数量的显著增长和科研投入的持续提高,对引文网络、科学政策、科研成效的研究越来越受到关注,逐渐形成了“科学学”(Science of Science)这一新兴领域。而科学家研究兴趣的转移问题,是这一领域的热点。
近期,一个由北京师范大学、中国科学院、美国波士顿大学、以色列巴伊兰大学多位学者组成的研究团队,在Nature Communications上发表文章,以1893年至2010年间发表在美国物理学会(APS)期刊上的482566篇为例,通过书目耦合方法建立共引网络,描述了科学家文章之间的关系,并运用社团结构分析的方法将不同的研究兴趣具体化,进一步研究了科学家兴趣转移的趋势及动力学问题,提出了一个能解释科研兴趣转移机制主要特征的开发-探索模型。
一、科学家共引网络的建立及其结构特性
共引网络的建立——书目耦合方法(Bibliographic Coupling)
文章基于美国物理学会(APS)期刊中消除姓名歧义后的236884位科学家的发表的482566篇论文数据,为3420位拥有50篇以上发表记录的科学家构建了联合引用网络(CCN),其中每个节点都是该科学家撰写的论文,如果两篇论文存在相同的参考文献,则将它们连接起来。
在科学计量学中,这种基于节点(论文)的共同邻域构建节点(论文)之间链接的方法被称为书目耦合,并被广泛应用于分析其他各种实际系统,如国际贸易系统和在线社会系统。
社团结构分析——基于模块度优化的快速展开算法(fast unfolding algorithm)
文章利用快速展开算法识别科学家的每个共引网络的社团,该算法通过最大化模块度Q函数来检测社团。
如果两篇论文共享至少一个参考文献,那么科学家的共同引文网络就是通过链接两篇论文而构建的。为了简单起见,文章不加权连边,仅考虑网络的拓扑结构。采用基于模块度优化的启发式快速展开算法检测网络的社团结构。文章考虑的模块化函数定义为:其中,Aij是共引网络的邻接矩阵的一个元素,ki是节点i的度,m是网络中的连边总数,ci是节点i被分配到的社团,如果ci=cj,则函数(ci,cj)为1,否则为0。
函数Q最大化即可得到最优社团划分。注意:gamma是Q中的分辨率参数,标准模块函数中的gamma=1。较大的gamma参数可检测出较小但较多的社团,较小的gamma参数可检测出较大但较少的社团。需要说明的是,虽然社团数量的分布受到参数gamma的影响,但动力学特性的显示几乎与社团分辨率无关。因此,文章考虑了标准的模块化函数,即gamma=1。
此外,为确保有意义的社团检测结果,需要共引网络规模需要足够大,也就是需要该作者有足够多的文章发表记录,因此,文章在研究中仅考虑在APS期刊上发表了至少50篇论文的3420位科学家。
二、社团转换概率的演化及其影响
在图1d展示的不同社团文章的时间序列的基础上,文章进一步研究了科学家对不同研究主题的兴趣转移动力学。图3a展示的是在整个职业生涯中,科学家每年参与主要社团的平均数量。图3b显示了职业生涯中平均转换概率的演变。转换概率的峰值在职业生涯的第20年左右,这表明科学家在职业生涯的早期转换较少,而在职业生涯的后期转换较多。
三、开发-探索模型——基于科研兴趣转移的动力学模型
文章提出了一个模型,用于定量化表示科学家兴趣转移动力学主要机制。科学家的研究活动可以模拟为知识空间中的发现过程(即表征不同知识之间联系的网络)。科学家发表论文时,会激活知识空间中的一个节点(即新知识)。这位科学家在其职业生涯中激活的子网络形成了一个个人网络,记录了他所有的论文以及其之间的联系。
四、主要研究结论
1. 本文的科学家论文共同引用网络展示了清晰的社区结构,其中每个主要社团代表一个主要的研究方向;
2. 科学家的主要课题的数量较少、分布很窄;
3. 早期的研究人员倾向于在转换到另一个主题之前花更长的时间研究一个主题,而现在他们倾向于同时研究多个主题;
4. 高生产率与职业生涯早期的低切换概率相关,而与职业生涯后期的高切换概率相关。与此形成鲜明对比的是,在所有的职业生涯中,每篇论文的高引用率与低转换概率相关;
5. 文章提出了一个开发和探索机制模型来捕捉科学家兴趣转移动力学机制的主要特征。