专利文献主题发现方法的比较研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:aminhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,各行业数据量都急剧增长。大量信息分布在我们周围,如何从这些信息中快速筛选出有用的信息以及数据的内在模式,成为当前摆在我们面前的一个难题。在知识管理领域,探测文本中的主题和其发展趋势一直是学者们关注的热点。学者们在进行主题分析时使用的方法不尽相同,比较常用的有共词聚类分析、k-means聚类分析以及目前流行的主题模型(如LDA)。针对不同的研究课题和目的,应该选择哪种主题发现方法已成为知识管理领域学者热切关注的问题。考虑到很少有学者深入探讨这三种主题发现方法间的区别,本文从理论和实践应用角度对共词聚类分析、k-means聚类分析和LDA主题模型三种主题发现方法的适用性和有效性进行了细致的对比。论文第二章对三种主题发现方法的原理、使用流程以及相关改进进行了详细介绍,也阐明了各个方法的使用前提。第三章通过对大量的文献归纳分析,从数据集类型和常见应用领域方面对主题发现方法的适用性进行了比较,并给出三种主题发现方法的适用范围。第四章对三种方法的优势和劣势进行了对比。结合第三章和第四章的分析,我们推断:相比于共词分析和k-means聚类方法,LDA模型在中文专利主题分析中会有较好的主题分析效果。第五章,通过把共词分析和LDA主题模型分别应用于汽车零部件领域中文专利数据的主题分析中,以比较各方法在中文专利主题分析中的有效性。结果证实了我们的推断,三种主题发现方法中,LDA主题模型在中文专利分析中具有较好的效果。在汽车零部件的案例中,LDA主题模型发现了完整的主题,而共词分析只发现了一些热点主题。最后,本文最后得出结论:共词分析在学科领域热点研究方面具有较大优势,在学科领域知识结构和发展阶段上表现一般;k-means适合大规模文本聚类,但不适合聚类主题描述的任务;LDA主题模型应用广泛,适合科学文献、专利文献和网络文本的主题发现,在主题发现方面,能得到完整而全面的主题,有效性高于共词分析和k-means聚类。
其他文献
<正> 要提高养猪业生产效益和水平,首先要提高母猪繁殖效率、缩短世代间隔、减少空怀和不孕。维生素的需要量很小,但就其营养学意义不亚于蛋白质、脂肪、碳水化合物,它们在母
城市公共环境的意义不仅在于满足特定的功能要求,通过支持和激发有意义的城市公共活动,城市公共环境可以成为城市整体中更为意义重大的组成部分。从可防卫空间理论的四个主要
1 案例案情:某男,26岁,于某年2月16日失踪,2月19日14:00在山野中被家属找到,身旁有一把长管猎枪,怀疑他杀而报案。
文化是人们在历史的社会实践活动中积淀而成的生活方式,它不仅能从历史惯性的外在意义上深层次地制约着人类文明的各个层面,而且也能内在地为个人提供安身立命的精神家园。我