云环境下基于RIHDBSCAN的微博事件检测及跟踪

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ymlazy64
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博近几年有着飞速的发展和广泛的影响。用户通过网页、手机、SMS等多种途径,随时随地记录见闻时事、参与话题讨论等。对实时产生的大量微博文本进行分析和挖掘具有风险预警、舆论监控等重要实际意义,也给文本挖掘领域带来了新的挑战。针对微博的挖掘分析,国内外学者已经取得了一定的成果。然而,为了提高从海量迅速增长的微博数据中挖掘新闻事件的速度和精度,需要采取新的更加有效的方法来处理即时更新的大量文本数据流。云计算技术是未来的趋势,它能够高效的完成海量数据的存储和计算任务,将云计算技术和微博挖掘结合起来势在必行。论文设计了一套完整的云环境下的微博事件检测跟踪模型。主要研究及创新点如下:①制定机械化过滤规则,将抓取的微博文本按规则进行过滤,有效提高后续处理的效率。②在传统TF-IDF算法的基础上,提出动态权值计算方法FCF-DIDF。该算法基于微博转发数和评论数,能够有效改善TF-IDF算法的不足,并考虑到微博文本集规模的不断增加,适合处理微博短文本。③基于DBSCAN算法,提出基于代表点的增量层次密度聚类算法(RIHDBSCAN)。该算法分为三个步骤:生成初始簇、初始簇合并、选出代表点。算法执行过程中只需要选取部分对象进行核心点检测,大大降低了I/O开销,屏蔽了数据输入顺序敏感性。RIHDBSAN算法在每轮事件检测聚类算法执行结束后,选出代表点组参与下轮的增量聚类,并通过增量聚类中簇结构和关键词变化追踪事件的发展轨迹。④针对单一节点处理海量微博数据面临困境,将算法部署在Hadoop云计算平台上。模型的四个部分:文本过滤、FCF-DIDF动态权值计算、余弦距离计算、RIHDBSCAN聚类,都并行在该平台上。通过在新浪微博平台上抽取的数据进行实验表明,表明论文提出的FCF-DIDF算法对比TF-IDF和UF-ITUF等有更高的性能,并且云框架的使用较好的提高了从大规模微博数据中挖掘新闻事件的效率,适合用于海量数据的分析和挖掘。
其他文献
云计算时代数据量的迅猛增长,从可扩展性、可用性和安全性等多个方面对数据中心提出了新的挑战,以满足数据量增长的高运算能力和强存储能力的要求。而随着高速、低延时、大规模
手指与手势的实时识别长期以来都是计算机视觉研究的重点与难点。体感交互技术的发展开创了新型的人机交互方式,也为这一问题带来了新的解决方案。本文主要实现了一种基于深度
随着互联网和无线网的日益普及,计算机病毒正变得日益猖獗。实践证明,仅仅依赖杀毒软件来抵御电子病毒是远远不够的。对病毒在网络上的传播机制进行理论分析,从中找到有效的防范
随着信息技术与计算机网络的飞速发展与实际应用,数字媒体得到了广泛传播。虽然人们从中获得了许多便利,但是,诸多安全隐患也相应得显现了出来:各种媒体信息都可能被非法复制、修
目前我国正处于老龄化社会阶段,由于子女大多出外工作,老人家庭空巢率也在不断增加,对智能化的看护系统的需求更加紧迫。而智能化看护系统的关键问题就在于对老人在日常生活中的
分布式移动社交网络是目前移动网络应用研究中的热点之一,而数据传输作为其中的一个关键性问题得到了广泛的关注。传统的移动自组织网络中的路由依赖于端到端的连接,已经无法适
C程序运行时错误是程序错误中较难发现的一类错误,因为运行时错误是程序在运行中产生的错误,具有隐蔽性强、不可预见的特征。比如常见的运行时错误包括数组越界、动态存储分配
随着多投影显示技术的不断完善,多投影显示系统越来越广泛地应用于各学科。人们对投影显示的质量要求越来越高,对系统的需求也逐渐趋于多样化。为了使拼接融合效果更好,本文设计
传统基于加速度传感器的运动识别方法通常假设传感设备是固定放置的,当传感设备的放置方式或位置偏离预定设置时识别性能会受到极大影响。然而,在普适计算环境下自由使用的传感