K-Means算法的改进及其在微博话题发现中的应用

来源 :国际关系学院 | 被引量 : 0次 | 上传用户:Engineer7002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,从数据中分析挖掘出具有价值的内容,是如今科学家们研究的重要方向。在我国,微博作为一种新兴的社交媒体与信息交流平台,对其数据进行挖掘分析具有很大的现实意义。K-Means算法作为聚类技术应用最普遍的算法之一,其所衍生出的多种变形算法,是文本信息挖掘技术中的核心技术。本文通过介绍分析传统K-Means算法所具有的聚类速度快、易于实现,而且适用于文本、图像特征等多种数据的特点,发现由于聚类初始中心点选择的随机性,传统K-Means算法以及其变种的聚类结果会产生较大的波动,而且微博的数据具有海量、短小、不规范、重复度大等特征,传统的信息分析方法难以满足微博信息分析的需求。在此基础上,本文所做工作如下:首先,针对传统K-Means算法的缺陷,设计了基于密度概念的改进K-Means算法,通过计算每个数据点的密度值,对数据进行初步的排序、筛选之后,再根据最小最大原则,合理的选择出k个初始聚类中心,消除了原始算法的随机性;然后,针对微博信息的特点和处理效率等因素,设计了基于文本聚类的微博信息处理流程,包括文本去噪、分词、停用词过滤、文本表示、特征提取和权重计算,以将微博文本处理为可以输入算法的格式;最后,为验证本文所提改进算法的性能,通过实验,获取微博数据并处理后,将改进后的K-Means算法与传统K-Mean算法、CAMDP算法应用于话题聚类中,并用准确率、召回率和F1值对算法进行评价。实验结果发现,改进后的K-Means算法有效的提高了聚类结果的准确度,对微博话题的聚类效果良好,并为微博信息的深度分析和后续应用系统的开发提供了基础。本文的研究工作对微博舆情监控等方面的应用开发有着重要的参考意义。
其他文献
佛教是一个外来的宗教,可是对中国本土文学、艺术等影响深远。南北朝时期,佛教尤其兴盛,一度掀起了宣佛的热潮。佛教徒出于宣传教理的需要翻译了大量佛经,佛经的流传影响了小
随着橡胶领域技术的发展,人们对橡胶制品提出了新的使用要求。为了提高橡胶制品的性能,增强天然橡胶与纤维的界面黏结强度,本文将聚酯纤维作为骨架与天然橡胶基体进行黏合。本文在天然橡胶中分别加入松香树脂和多巴胺两种增粘剂,制备了天然橡胶/聚酯纤维复合材料。松香是从松树的分泌物中提取的一种天然树脂,是一种可再生资源,并且具有高粘性的特点。多巴胺作为一种绿色环保材料,对人体和环境均无任何危害,且其与贻贝分泌的
厦门某基坑工程,设二层地下室,基坑开挖深约10.8m,周长约1100m,面积约7.5万平方米。基坑支护范围内淤泥~淤泥质土层底平均埋深约12m。在厦门首次采用钻孔灌注桩结合普通预应力
随着部队对卫勤保障能力要求的不断提高,基层部队的医疗卫生装备也在不断更新,大批先进、实用医疗仪器不断列装旅团卫生队.然而,由于众多主客观因素致使这些列装医疗设备在旅
目的:通过与同年龄、同性别、同文化程度的健康人群对比,得到特发性正常压力脑积水(iNPH)患者的认知功能损害的特点,为及早发现iNPH患者存在的认知功能损害和尽早给予脑室腹