基于特征加权的半监督文本聚类研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:hdiell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和信息网络技术的发展,社会信息量急剧增加,数据库的规模日益扩大,数据库的数据总量及容量也急剧膨胀,这些广阔的领域为聚类分析方法的应用以及聚类分析的研究提供了宽广的舞台。在很多实际应用中,我们在得到数据的同时,还能得到一些与这些数据相关的先验知识,然而在传统聚类分析过程中,算法在对样本集进行聚类时并未考虑这些先验知识。半监督聚类算法就是研究无监督学习中如何利用少量的监督信息来提高聚类的性能。半监督聚类是近几年机器学习领域的一个新的研究方向,也是数据挖掘的一个重要分支,逐步成为许多领域的有用工具。然而目前在半监督聚类的研究中,尤其是当少量标记数据不足以反映大量无标记数据所蕴含的完整的聚类结构时,其聚类效果并不好。论文首先介绍了半监督聚类的研究背景、研究现状以及研究意义,简单的讲述了常用的聚类方法、目前用的比较多的几种特征选择指标、以及评价准则等等。重点介绍了三种半监督聚类算法:基于搜索的半监督聚类、基于相似度的半监督聚类、基于搜索和相似度的半监督聚类。尤其是基于约束的K-means半监督聚类,本文对其进行了简单的介绍并用实验证明了该算法。其次为了提高半监督聚类算法的准确率,本文对基于约束的K-means算法进行了改进,将特征加权引入半监督聚类过程中,使得类内间的文档相似度更大,并用实验验证了不同特征加权指标对算法的影响。我们不仅在单语言数据集上进行了实验来证明这一算法的有效性,还在中、英双语数据集上进行了只包含中文或英文类标时的聚类实验。实验结果表明在效率和准确率方面,基于特征加权的半监督聚类比跨语言分类表现出更好的性能。
其他文献
随着网络带宽需求的飞速增长以及多媒体通信技术的迅速发展,对网络传输起重要作用的路由器提出了更高的要求。转发处理技术是影响网络性能最重要的部件,而转发性能也是高端路
倒箱是影响集装箱码头物流系统作业成本和效率的关键因素之一,高效合理的堆场调度以减少倒箱数是目前集装箱领域研究的重点和热点问题,具有非常重要的实际应用价值。   论文
数据挖掘即为从大量数据中提取或“挖掘”知识。更具体地说,就是通过对数据进行深入分析,得到隐藏在数据背后的本质特性和普遍规律。聚类分析作为数据挖掘中的一种重要方法,
随着经济的快速增长、社会的迅速进步和人民的生活不断改善,大众对公共安全保障系统的需求与日俱增并且要求越来越高,从而促进了视频监控系统的发展。视频监控系统记录的视频
无线传感网络是集成微型电子、无线通信网络和对信息进行分布式处理等技术的一种全新的计算模式。被广泛用于智能交通,军事、医疗、生态环境监测等领域。因为无线射频信号在
随着人们探索自然领域的拓展,控制系统的规模日益扩大,复杂程度逐渐增加。对系统进行建模、仿真和分析是对系统进行进一步设计实现的基础,其研究具有非常重要的意义。智能控
海洋浮游植物的形态分析和分类鉴定是海洋生物资源调查、赤潮和海洋水质监测、水产养殖、地质勘探、薇藻培养和医药开发的重要基础。海洋浮游植物显微图像的分析与分类鉴定是
肝内管道系统是一个相互间联系紧密并且解剖结构复杂多变的多层次的结构整体。正是这种复杂的管道系统及其生理和病理变异,决定了肝脏外科手术的难度。   移动立方体(MC)
目前,中国的TD网络基站总数已超过20万个,覆盖到国内所有城市,已成为全球最大的3G网络。然而TD现网一直存在质量不稳定的问题,因此中国移动在四期招标中提出对前三期的TD网络进行