论文部分内容阅读
随着互联网的不断发展,从数据中分析挖掘出具有价值的内容,是如今科学家们研究的重要方向。在我国,微博作为一种新兴的社交媒体与信息交流平台,对其数据进行挖掘分析具有很大的现实意义。K-Means算法作为聚类技术应用最普遍的算法之一,其所衍生出的多种变形算法,是文本信息挖掘技术中的核心技术。本文通过介绍分析传统K-Means算法所具有的聚类速度快、易于实现,而且适用于文本、图像特征等多种数据的特点,发现由于聚类初始中心点选择的随机性,传统K-Means算法以及其变种的聚类结果会产生较大的波动,而且微博的数据具有海量、短小、不规范、重复度大等特征,传统的信息分析方法难以满足微博信息分析的需求。在此基础上,本文所做工作如下:首先,针对传统K-Means算法的缺陷,设计了基于密度概念的改进K-Means算法,通过计算每个数据点的密度值,对数据进行初步的排序、筛选之后,再根据最小最大原则,合理的选择出k个初始聚类中心,消除了原始算法的随机性;然后,针对微博信息的特点和处理效率等因素,设计了基于文本聚类的微博信息处理流程,包括文本去噪、分词、停用词过滤、文本表示、特征提取和权重计算,以将微博文本处理为可以输入算法的格式;最后,为验证本文所提改进算法的性能,通过实验,获取微博数据并处理后,将改进后的K-Means算法与传统K-Mean算法、CAMDP算法应用于话题聚类中,并用准确率、召回率和F1值对算法进行评价。实验结果发现,改进后的K-Means算法有效的提高了聚类结果的准确度,对微博话题的聚类效果良好,并为微博信息的深度分析和后续应用系统的开发提供了基础。本文的研究工作对微博舆情监控等方面的应用开发有着重要的参考意义。