论文部分内容阅读
随着互联网的飞速发展,微博等社交媒体也变得越来越流行,伴随着的是微博用户每天产生的海量微博数据。如何对这些数据进行有效的分析,发掘出其中有价值的信息,具有巨大的商业价值和社会价值。传统的文本向量化模型在面对微博短文本时,由于没有考虑到关键词背后的语义关联信息而导致后续的聚类分析结果准确率不高。与此同时,经典的聚类算法在对微博短文本聚类时也存在着一些不足,比如在K-means算法中初始聚类中心的随机选择可能导致聚类结果的不稳定以及聚类结果易陷入局部最优等。此外,传统的聚类算法在单机环境中处理海量的微博数据时效率并不高。本文针对以上问题进行研究,论文的主要工作和创新点如下:(1)对微博文本进行去噪、分词、删除停用词后,使用LDA主题模型代替向量空间模型,通过结合使用LDA主题模型和K-means算法对微博进行聚类。通过实验表明该方案相比向量空间模型结合K-means算法的方案,在聚类的准确率等性能指标上得到了提升。(2)在上述实验的基础上,根据K-means算法的不足,提出了基于数据分布选取初始聚类中心的方案,使得聚类的稳定性得到了提升,并避免了聚类结果陷入局部最优。此外,还提出了基于信息熵的加权欧氏距离的优化方案,该方案根据数据对象属性间的差异程度对其距离进行适当的放大和缩小,从而真实的反映了在聚类的过程中数据对象的不同属性所发挥作用的不同。最后通过实验,进一步验证了上述改进方案的可行性。(3)针对算法在单机环境中处理海量的微博数据效率不高的问题,本文通过对Storm流处理平台进行深入的研究,搭建了基于Storm的集群分布式环境。同时引入Kafka消息队列系统,使得Storm可以作为消费者并行化的从Kafka消息队列中读取数据。此外,并行化实现改进后的K-means算法,将其应用到基于Storm的流处理平台中。通过实验表明并行化处理后的算法在Storm集群环境中的处理能力得到了大幅的提升。