论文部分内容阅读
微博近几年有着飞速的发展和广泛的影响。用户通过网页、手机、SMS等多种途径,随时随地记录见闻时事、参与话题讨论等。对实时产生的大量微博文本进行分析和挖掘具有风险预警、舆论监控等重要实际意义,也给文本挖掘领域带来了新的挑战。针对微博的挖掘分析,国内外学者已经取得了一定的成果。然而,为了提高从海量迅速增长的微博数据中挖掘新闻事件的速度和精度,需要采取新的更加有效的方法来处理即时更新的大量文本数据流。云计算技术是未来的趋势,它能够高效的完成海量数据的存储和计算任务,将云计算技术和微博挖掘结合起来势在必行。论文设计了一套完整的云环境下的微博事件检测跟踪模型。主要研究及创新点如下:①制定机械化过滤规则,将抓取的微博文本按规则进行过滤,有效提高后续处理的效率。②在传统TF-IDF算法的基础上,提出动态权值计算方法FCF-DIDF。该算法基于微博转发数和评论数,能够有效改善TF-IDF算法的不足,并考虑到微博文本集规模的不断增加,适合处理微博短文本。③基于DBSCAN算法,提出基于代表点的增量层次密度聚类算法(RIHDBSCAN)。该算法分为三个步骤:生成初始簇、初始簇合并、选出代表点。算法执行过程中只需要选取部分对象进行核心点检测,大大降低了I/O开销,屏蔽了数据输入顺序敏感性。RIHDBSAN算法在每轮事件检测聚类算法执行结束后,选出代表点组参与下轮的增量聚类,并通过增量聚类中簇结构和关键词变化追踪事件的发展轨迹。④针对单一节点处理海量微博数据面临困境,将算法部署在Hadoop云计算平台上。模型的四个部分:文本过滤、FCF-DIDF动态权值计算、余弦距离计算、RIHDBSCAN聚类,都并行在该平台上。通过在新浪微博平台上抽取的数据进行实验表明,表明论文提出的FCF-DIDF算法对比TF-IDF和UF-ITUF等有更高的性能,并且云框架的使用较好的提高了从大规模微博数据中挖掘新闻事件的效率,适合用于海量数据的分析和挖掘。