基于Storm的微博聚类算法的研究与实现

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:loveagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,微博等社交媒体也变得越来越流行,伴随着的是微博用户每天产生的海量微博数据。如何对这些数据进行有效的分析,发掘出其中有价值的信息,具有巨大的商业价值和社会价值。传统的文本向量化模型在面对微博短文本时,由于没有考虑到关键词背后的语义关联信息而导致后续的聚类分析结果准确率不高。与此同时,经典的聚类算法在对微博短文本聚类时也存在着一些不足,比如在K-means算法中初始聚类中心的随机选择可能导致聚类结果的不稳定以及聚类结果易陷入局部最优等。此外,传统的聚类算法在单机环境中处理海量的微博数据时效率并不高。本文针对以上问题进行研究,论文的主要工作和创新点如下:(1)对微博文本进行去噪、分词、删除停用词后,使用LDA主题模型代替向量空间模型,通过结合使用LDA主题模型和K-means算法对微博进行聚类。通过实验表明该方案相比向量空间模型结合K-means算法的方案,在聚类的准确率等性能指标上得到了提升。(2)在上述实验的基础上,根据K-means算法的不足,提出了基于数据分布选取初始聚类中心的方案,使得聚类的稳定性得到了提升,并避免了聚类结果陷入局部最优。此外,还提出了基于信息熵的加权欧氏距离的优化方案,该方案根据数据对象属性间的差异程度对其距离进行适当的放大和缩小,从而真实的反映了在聚类的过程中数据对象的不同属性所发挥作用的不同。最后通过实验,进一步验证了上述改进方案的可行性。(3)针对算法在单机环境中处理海量的微博数据效率不高的问题,本文通过对Storm流处理平台进行深入的研究,搭建了基于Storm的集群分布式环境。同时引入Kafka消息队列系统,使得Storm可以作为消费者并行化的从Kafka消息队列中读取数据。此外,并行化实现改进后的K-means算法,将其应用到基于Storm的流处理平台中。通过实验表明并行化处理后的算法在Storm集群环境中的处理能力得到了大幅的提升。
其他文献
含氮废水尤其是高氨氮废水的生物处理中,游离氨对硝化作用的抑制作用显著影响工艺的运行效果.研究游离氨对硝化作用的抑制机理有利于生物脱氮工艺的长期稳定运行.总结了游离
对市面上不同类型的墙纸胶进行检测,考察主要成分、p H、固含量、黏性系数、游离甲醛等多项理化指标,并对测定结果进行评价。检测结果表明:抽检的国产知名品牌墙纸胶质量过关
教务档案是教职工在教育及管理工作中所形成的原始资料,能够在一定程度上反映出学校教育活动情况,为学校教育及管理方式的改进提供参考依据。当前学校教务档案管理理念的先进
随着计算机技术的发展,计算机仿真技术在攻克电工电子技术课程教学难点中发挥重要作用。计算机仿真技术是非电类专业学生学习电子技术课程的有效工具,具有高效、安全等优势,
大力推行工学结合、顶岗实习人才培养模式,是深化职业教育教学改革的战略重点。本文分析了工学结合、顶岗实习人才培养模式的内涵和意义,在基于安庆市电子职业技术学校顶岗实习
串补电容破坏了线路阻抗分布的均匀性,且过电压保护元件MOV(metal oxide varistor)为非线性元件,所以传统的故障测距算法不适用于串补线路。该文首先分析了串补线路上行波差动
研究了具有Michaelis-Menten接触率SEIS非线性流行病传播数学模型的渐近性态,得到了决定疾病绝灭和持续的阈值-基本再生数.利用Hurwitz判据、Lasalle不变集原理和BendixonDul