基于LDA和WordNet的研究主题动态演进挖掘

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:wjkylin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网中存在大量的电子科技论文档案,如何管理和分析这些文档已经变得越来越重要。本文以此作为切入点,着重挖掘论文集中潜在的研究主题以及主题的动态演进规律。本文采用LDA作为挖掘科技论文研究主题的工具,在 LDA的基础上加入WordNet丰富文档集语义知识,然后利用本文的方法对论文集中的主题以及主题动态演进挖掘进行了探讨。由于论文集中含有丰富的作者信息,本文最后也对作者的主题以及主题动态演进进行了挖掘。具体来说本文主要研究内容包括以下三个方面:  (1)基于LDA和WordNet的研究主题挖掘。对主题挖掘相关技术做了深入研究,选择了LDA模型作为主题挖掘工具。但在研究过程中发现 LDA有很多不足,提出在应用LDA模型之前和之后分别加入WordNet。所谓在应用LDA模型之前应用WordNet,用WordNet加入单词的同义词到词汇集中,然后再利用LDA挖掘研究主题。所谓在应用LDA之后应用WordNet,首先利用LDA得到研究主题,然后用WordNet合并研究主题中的相应同义词。为了验证方法的有效性,我们对此进行了相关的实验。  (2)研究主题随时间的动态演进挖掘。具体来说有两种方法:1)基于概率模型的方法。根据主题文档矩阵得到每篇文档属于每个主题的概率,然后将文档集中的文档以某时间段为单位分组,在每一个文档小组中,以所有文档属于主题概率的均值作为主题强度,然后将主题在所有时间段的主题强度图像化显示即可得到主题的动态演进规律。2)基于聚类的方法。设定阈值,如果文档属于主题的概率大于这个阈值,则认为其属于主题,然后将主题中的文档以某时间段为单位进行分组,以此时间段内的文档数作为主题的主题强度,然后将主题在所有时间段的主题强度图像化显示即可得到主题的动态演进规律。实验结果显示两种方法得出的结论是基本一致的。  (3)作者的研究主题及其动态演进挖掘。由于文档集中含有大量的作者信息,对作者的相关主题进行了挖掘。然而发现单一作者的相关论文数据比较稀疏,对其进行实验的结果不理想,提出利用co-author关系构建作者网络,经过相应的聚类分析,得到作者虚拟团队,然后以虚拟团队为单位进行主题挖掘以及研究主题随时间动态演进挖掘,并对其进行了实验,实验中我们发现了39个作者虚拟团队,并选取其中一个团队进行了主题动态演进挖掘,实验结果显示本文的方法是有效的。
其他文献
煤矿采场顶板赋存条件的复杂性,使现场设计人员难以准确把握复杂的顶板运动特点,作出针对性的控制设计。因其采场的复杂性使得研究岩层运动及其控制的很多成果仅限于经验状态,难
从样本中提取规则进而进行构建模糊分类器是一种有效的建模方式。Wang-Mendel(WM)方法根据模糊数学理论方法从数据中直接提取模糊规则。WM方法具有简单、高效实用的特点。但
现如今,针对各种突发事故的多部门参与的应急联动系统在不断发展完善,而负责将经营过程计算机化的工作流管理系统也在不断进步发展。目前,工作流和工作流管理技术的理论研究众多
开采沉陷地层三维建模及可视化技术是三维地学模拟领域研究的重点与热点问题之一,它是运用计算机技术,在三维环境下将空间数据管理、图形可视化和实体内容分析等工具结合起来,用
随着物联网建设进程的推进,无线传感器网络的研究被推向了一个新的高潮。无线传感器网络是一门交叉的前沿学科,人们可以通过无线传感器网络感知客观世界,扩展现有网络的功能和人
近年来,概念格理论作为一种有效的数据处理方法,得到了很大的发展。它在各种形式背景的知识表示和知识发现中发挥着独特优势。  目前,有关概念格理论的各种研究主要针对经典形
SIP(Session Initiation Protocol,会话初始化协议)作为IP网络中的信令协议,其主要功能是建立和管理呼叫,具有简单、灵活、可扩展性强的优点,是下一代网络(NGN)的核心协议之一。
随着云计算商业模式的飞速发展,越来越多的软件企业进入SaaS(Software as aService,软件即服务)市场,降低成本提高效益成为SaaS提供商迫切需要解决的问题。把传统软件迁移成SaaS软
数字矿山的提出象征着我国矿业已进入数字化矿产科技时代。如何顺应甚至超越世界矿产科研潮流就成为当前国内外研究领域的热点之一。数字矿山不同于经典矿业,它必须有计算机和
人脸表情识别是一个非常具有挑战性和非常有意义的课题,它不仅涉及到计算机视觉、心理学、生理学等相关学科,还涉及到模式识别和图像处理技术等。随着科技的进步,人们对计算机的