论文部分内容阅读
目前,互联网中存在大量的电子科技论文档案,如何管理和分析这些文档已经变得越来越重要。本文以此作为切入点,着重挖掘论文集中潜在的研究主题以及主题的动态演进规律。本文采用LDA作为挖掘科技论文研究主题的工具,在 LDA的基础上加入WordNet丰富文档集语义知识,然后利用本文的方法对论文集中的主题以及主题动态演进挖掘进行了探讨。由于论文集中含有丰富的作者信息,本文最后也对作者的主题以及主题动态演进进行了挖掘。具体来说本文主要研究内容包括以下三个方面: (1)基于LDA和WordNet的研究主题挖掘。对主题挖掘相关技术做了深入研究,选择了LDA模型作为主题挖掘工具。但在研究过程中发现 LDA有很多不足,提出在应用LDA模型之前和之后分别加入WordNet。所谓在应用LDA模型之前应用WordNet,用WordNet加入单词的同义词到词汇集中,然后再利用LDA挖掘研究主题。所谓在应用LDA之后应用WordNet,首先利用LDA得到研究主题,然后用WordNet合并研究主题中的相应同义词。为了验证方法的有效性,我们对此进行了相关的实验。 (2)研究主题随时间的动态演进挖掘。具体来说有两种方法:1)基于概率模型的方法。根据主题文档矩阵得到每篇文档属于每个主题的概率,然后将文档集中的文档以某时间段为单位分组,在每一个文档小组中,以所有文档属于主题概率的均值作为主题强度,然后将主题在所有时间段的主题强度图像化显示即可得到主题的动态演进规律。2)基于聚类的方法。设定阈值,如果文档属于主题的概率大于这个阈值,则认为其属于主题,然后将主题中的文档以某时间段为单位进行分组,以此时间段内的文档数作为主题的主题强度,然后将主题在所有时间段的主题强度图像化显示即可得到主题的动态演进规律。实验结果显示两种方法得出的结论是基本一致的。 (3)作者的研究主题及其动态演进挖掘。由于文档集中含有大量的作者信息,对作者的相关主题进行了挖掘。然而发现单一作者的相关论文数据比较稀疏,对其进行实验的结果不理想,提出利用co-author关系构建作者网络,经过相应的聚类分析,得到作者虚拟团队,然后以虚拟团队为单位进行主题挖掘以及研究主题随时间动态演进挖掘,并对其进行了实验,实验中我们发现了39个作者虚拟团队,并选取其中一个团队进行了主题动态演进挖掘,实验结果显示本文的方法是有效的。