基于知识图谱的聚类算法研究及其在文本聚类中的应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:Ada111222333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通信工程和计算机技术的迅速发展将人类社会带入到了信息时代,数据库中存储的数据量也急剧增大,如何在海量数据中分析和获取有价值的知识成为人们日益关注的问题。文本聚类分析是信息数据挖掘的一个重要研究方向,可以直观地反映数据间的分布特点,更好地发现数据集中内在的类别特性。K-Means算法作为聚类分析算法中最为普遍应用的算法之一,尽管时间复杂度较低且易于实现,但在处理具有高维性和稀疏性的数据时,容易出现局部最优的情况。本文介绍了文本聚类算法的基本理论与相关技术,对于K-Means算法本身具有的部分局限性,提出了改进的聚类算法。在介绍聚类的几种常用的算法思想和文本聚类的相关技术的基础上,重点阐释了K-Means聚类算法,并分析了该算法具有的优缺点。针对传统K-Means算法对噪声数据敏感且随机选择初始聚类中心导致可能无法得到有效的聚类结果等缺点,提出了基于知识图谱的改进K-Means聚类算法。知识图谱是构建在当前Web基础之上的一层覆盖网络,借助其图的表示结构,考虑文档词条间的语义关系,可以在Web网页上建立起基于概念的一种链接关系。通过改进类与类之间的相似度度量标准,构建知识图谱中的“语义网络”,从而优化初始聚类中心的选择方式与词条向量间的距离计算方法,降低孤立点对聚类结果的影响。改进的K-Means算法中初始簇类中心的选择策略可以减少该算法陷入局部最优解的可能性并充分考虑到文本内容对文本聚类的贡献度,提高算法性能与效果。论文采用了常用的评价指标来对不同方法的实验结果进行比较,其中,评价标准包括兰德指数、轮廓系数、互信息与V-measure标准等。通过对比实验表明改进后的算法能够得出聚类质量较高且波动幅度较小的聚类结果。同时,针对本文的研究做出分析与总结,提出了在实验过程中未能深入研究到的相关问题,并展望了文本聚类挖掘未来的研究方向。
其他文献
现代信息社会的身份认证系统已经逐渐趋向于基于生物特征的身份认证。其中的人脸特征由于具有不易伪造和不被遗忘的特性,而被广泛用于身份识别。人脸模板保护技术的目标是结
随着人们环保意识的增强,城市建设项目和交通工具等带来的噪声引发许多矛盾。噪声地图是体现噪声分布情况的工具,被运用于噪声污染防治等领域。然而由于传统的绘制噪声地图方式存在采集设备成本高、覆盖率低、地图更新不及时等问题,严重影响了噪声地图的推广与应用。伴随移动网络技术的不断发展,移动智能终端普及率越来越高。在此背景下,使用智能终端替代传统测量设备,结合大数据技术,开发一款实时监测环境噪声及动态展示噪声
随着深度学习时代的来临,计算机视觉在许多语义理解任务上都取得了很好的成绩,包括分类、检测、分割。将破碎的文档数据进行拼接,并恢复出原状是一个十分困难的问题。它涉及到计算机视觉和人工智能算法当中的匹配、识别、大规模状态空间当中的搜索等问题。研究文档拼接问题过程中涉及的上述这些技术除了其本身对计算机视觉和人工智能算法相关问题有重要的意义之外,解决文档问题在考古、刑侦领域也有广泛的应用。本文注意到了文档
近年来,随着移动互联网、物联网等新型技术的不断发展,已经产生了大量的时空轨迹数据,这些数据蕴含了移动物体的移动性。对轨迹数据中隐含的移动模式进行挖掘,可以发现新颖、
阜东斜坡油气勘探始于20世纪50年代,近些年随着勘探力度的增大,石炭系、二叠系梧桐沟组和三叠系韭菜园子组先后突破,油气显示较好。随着勘探进一步推进,该地区沉积体系及储层
随着互联网新业态的高速发展,越来越多的行业对于网络服务的稳定性提出了更高的要求。北京交通大学研发的多元化智融网络组件,利用智融标识网络架构思想将多种链路资源进行融合,实现了高稳定性、高质量的网络服务。然而,由于缺少必要的管理平台,多元化智融网络组件在使用过程中暴露出配置方式复杂,难以动态调整;型号众多,用户权限管理混乱;无法实时监测各个组件状态等问题。针对上述问题,本文在调查研究现有设备管理方式的
二氧化碳(CO2)是一种温室气体,但它也是重要的C1资源,具有低价、无毒等特点,以其为原料可以合成诸多有价值的化合物。在众多的转化利用方法中,CO2和环氧化合物反应生成环状碳酸
陶瓷类材料具有硬度高、耐高温、抗腐蚀等优良性能,在机械、航空航天、医疗等领域均有应用,对其需求也日益增强,促使陶瓷材料的加工朝着高质量和高效率的方向发展。然而,作为
在中国经济发展方式转型的关键时期,探求创新的空间结构及影响因素,有助于加强对我国技术创新发展规律的理解,促进创新政策的完善。为了解决以往研究中存在的可塑性面积单元
信任是当今心理学与社会学研究的热点问题,是各种组织环境中必不可少的协调机制,很多研究长期以来一直强调信任的积极影响。但是,如果没有把信任用对地方,信任也会功能失调,产生消极影响。因此,精准地将信任运用于各种社会组织环境对完成一项高质量的工作就显得尤为重要。但是,信任准确度的情境预测因素的探究非常有限。虽然许多研究在探究人际信任现象时主要关注特质水平预测因子,例如个体的广义信任倾向或受害者敏感性等,