论文部分内容阅读
当今社会正处在大科学时代,科研活动呈现出许多新的特点,如投资强度大、多学科交叉、需要昂贵且复杂的实验设备、研究目标宏大等。所以科研合作是目前科学研究的主流方式,具体表现为科技论文的合著。这些合著关系相互交织就形成了作者合著网络。对合著网络进行研究有利于发现作者间的合著关系、分析科研团体的研究主题、挖掘学科内部的知识结构;还能为作者合著关系的构建提供建议,预测合著网络的演化趋势,推动科研活动更好更快发展。本文在调研国内外合著网络研究现状时,发现目前对于合著网络的研究仅仅局限在测度合著网络的各项参数、发现研究团体;或者通过时间窗口的推进来探究合著网络的演化趋势;也有学者致力于合著网络的链接预测,为作者合著关系的建立提供建议。但鲜有作者将研究主题和引文两个因素融合在一起研究合著网络的发展态势。因此,本文提出将作者的研究主题融入到基于引文的作者合著网络(Co-author Network based on Citation,简称CAN-C)中,并以情报学学科领域为例,探究基于主题与引文结合的作者合著网络(Co-author Network based on Topic&Citation,简称为CAN-T&C)的网络结构与特征。首先,本文选取了我国情报学领域的154位高产作者,构建CAN-C,分析该网络的特征参数及其结构特征,将其划分为7个模块,并分析各模块内部的结构与内容特征,模块间的合著关系强度等。其次,利用LDA主题模型对上述154位作者的文档进行主题提取,获取每位作者的文档主题,经皮尔逊相关性分析生成作者间的主题相似度矩阵(Author Similarity Matrix based on Topic,简称为ASM-T)。然后构建融合函数,通过融合函数将ASM-T融入到基于引文的作者合著矩阵(Co-author Matrix based on Citation,简称为CAM-C)中,生成CAN-T&C。与CAN-C类似,在分析CAN-T&C的相关特征参数及结构特征的基础上,将其划分为9个模块,进一步分析每个模块的内部结构与作者链接关系、分析模块间的链接强度等。最后,从网络的相关参数、结构特征以及内容特征三个方面对CAN-C与CAN-T&C进行对比,对比发现,相比CAN-C,在网络参数方面,CAN-T&C的密度、聚类系数、节点平均度等都有所提升;在网络结构方面,CAN-T&C的模块数增多了,模块内部以及模块间的关联都得到了加强;在内容方面,CAN-T&C在反映作者主题关联上更加准确且全面。我们相信若在构建合著网络时将引文与主题都考虑在内,必能使合著网络更加丰富,完善学科内部知识结构,促进学科内部知识交流,推动科研活动有效演进,实现学科更好更快发展。