基于K-means算法的文本聚类的研究与实现

被引量 : 0次 | 上传用户:xrong19730911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的快速发展和广泛普及,使得人们要接收的信息量呈指数级增加。文本作为信息的重要载体,蕴含着大量有价值的资源,等待着人们进行发掘和研究。但是,文本信息内容和格式的多样化、复杂化,决定了人们难以发现感兴趣的相关信息。随着文本挖掘技术的诞生和发展,人们可以快速有效地从大量的文本资源中发现简洁、精练、可理解的知识。而文本聚类作为文本挖掘的重要分支,其研究也越来越多地引起了人们广泛的重视。K-means算法以其简单性和快速性在文本聚类中得到广泛应用,但是传统的K-means算法对初值的依赖性很强,需要事先给出要生成的簇的数目k,而这个参数k的确定一般是根据用户的经验知识给出的;另外,其初始聚类中心是随机选取的,这种随机性往往导致聚类结果的不稳定。可以说,不同的k值和不同的初始聚类中心对聚类质量和时间效率造成的影响是很大的。本文对文本挖掘和聚类分析做了较为全面的研究,开展的工作主要包括以下几个方面:首先,本文深入研究了文本挖掘的相关理论和关键技术,包括中文分词、降维操作、文本表示、权重评价及相似度计算等方面。其次,本文对传统K-means算法进行了深入研究,针对其存在的不足,从两方面改进了传统K-means算法:(1)提出扇形切分法确定初始聚类数目k。根据文本特征项对文本描述的重要性程度划分重要特征项,选取只包含重要特征项的文本集做为样本,运用扇形切分法对其进行初步聚类,得到的初步聚类数作为K-means算法的k的取值。(2)从文本挖掘的自身特点出发,通过聚类的分布特点来反向确定初始中心,即根据中心对象之间的相似度小而中心对象与本簇中其它对象间的相似度大的原理,寻找最有效的k个文本对象来作为初始聚类中心:它们两两之间的相似度较低,且每个中心周围都有与之相似度较高且数目大于某一阈值的对象。最后,本文设计并实现了一个简单的基于K-means算法的文本聚类系统,并在其基础上通过实验对改进K-means算法的有效性进行了验证,结果证明,改进K-means算法能有效地解决传统K-means算法的随机性所产生的聚类效果不稳定的问题,其时间复杂度也有所降低。
其他文献
<正>中国的民间信仰或民间宗教,被杨庆堃先生诠释为弥散性、分散性或弥漫性的。~①无疑,这样的概括有效调和了西方对制度性宗教、信仰与宗教同一化的固有观念和中国独特的民
会议
本学位论文结合浙江省自然科学基金项目“精密设备系统主动隔振基础理论研究”(No.599085)进行精密仪器设备隔振平台振动主动控制理论与实验研究。针对项目的研究任务和国内
在全面实施素质教育的过程中,教师的地位举足轻重,提高教师的素质,重视师德修养,具有极其深远的意义,而公安院校的特殊性决定了其教师的激励制度更具特点。在这种背景下,公安
洼38块沙三段油层开井数只有34口,而停产井数高达88口。通过对油井停产原因和潜力的分析。采取综合治水、转换开发方式、侧钻水平井、注采一次管柱泵与配套工艺相结合、以及
介绍了一种基于STM32单片机的XY轴金属自动检测装置。硬件包括最小系统、稳压电路、直流电机驱动电路和人机交互电路。软件采用LCD显示程序、电机驱动器和导轨设计。当仪器在
日益激烈的市场竞争环境和个性化的客户需求,给企业带来了全新的挑战和变革:企业间由“合作——博弈”向更高层次的“合作——整合共赢”转变、传统大批量生产方式向多品种、
目前,我国正处于工业化进程中,土地资源开发粗放,浪费严重,土地政策不完善,甚至有时相矛盾。特殊土地国情和日益突出的社会矛盾以及中央与地方长期以来在资源和利益上的博弈,
基于变频调速异步牵引电机的技术特点,详细介绍其计算程序的主要算法,并简单介绍该程序在牵引电机开发中的验证结果。
众所周知,翻译不仅仅是语言上的转换,更重要的是文化的传递。红楼梦中谶语的文本特点和其丰富的文化内涵使它成为翻译的难点,对其翻译过程和策略进行比较研究可以帮助我们思
企业家作为特殊的生产要素 ,正是他们把生产、科研、生产力等诸多要素组织起来 ,才形成经济的增长点。文章在对中国企业家这一新生阶层的现状进行分析评价的基础上 ,分析讨论