面向大规模数据的在线新事件检测

被引量 : 0次 | 上传用户:mujun246
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新事件检测是从以时间顺序到来的新闻报道流中发现新闻话题种子事件的第一篇新闻报道。由于目前Internet高速发展,网络新闻信息规模变得十分巨大,传统的新事件检测算法在处理大规模数据时出现了性能上的瓶颈。随着云计算时代的到来,Hadoop分布式计算平台将有效地解决传统算法在处理大规模数据集时的性能瓶颈问题。设计一个适用于分布式平台的高效在线新事件检测算法并将算法移植到分布式计算环境下,突破性能上的限制有着重要的现实意义。本文以传统新事件检测算法为基础,通过分析算法时间复杂度上的瓶颈,研究了改进的快速新事件检测算法,分析了算法的并行化策略,进而在Hadoop分布式平台下实现了适用于大规模数据的在线新事件检测方法。本文所做的工作首先是介绍新事件检测技术的研究背景、现实意义及研究现状。然后详细介绍了传统的新事件检测所涉及到的各种关键技术以及MapReduce分布式计算框架的相关知识。在此基础上,提出了改进的在线新事件检测算法,算法采用的倒排索引策略显著降低了时间复杂度,算法中的一些步骤采用了并行化设计,进一步加快新事件检测的速度。本文设计并实现了基于MapReduce的分布式新事件检测系统。最后通过实验证明了该方法的可行性和有效性。
其他文献
<正>传统的金融理论是根据证券所带来的现金流来界定证券的,例如,持有债券就意味着能够获得一笔固定的利息收入,而持有股票则意味着能够获得分红。1998年,来自美国哈佛大学、
艾米莉·狄金森是美国最伟大的诗人之一,李贺是我国中唐著名诗人,他们都创作了大量的死亡主题诗歌,这些诗令人印象深刻。这篇文章主要围绕狄金森与李贺诗歌的死亡主题展开讨
全球通信设备行业市场庞大,竞争也十分激烈,尤其是近年来华为和中兴通讯等公司的迅速崛起更使老牌电信企业面临严峻的挑战。本文以目前行业中实力第二的诺基亚西门子通信公司
<正>长期以来,伴随着经济的快速增长,我国商业银行资产规模持续扩大,盈利能力不断提升。但是,利率市场化改革的逐步深化、"金融脱媒"现象的凸显、监管环境的变化以及经济增速
分银渣是铜阳极泥在提取Cu、Se、Te和贵金属Au、Ag、Pt、Pd后所留下的残渣。其成分复杂且贵金属含量低,处理比较困难。随着我国铜产量的增加,也会产生更多的分银渣。分银渣中
中国学界在20世纪80年代就已经开始了对本雅明的研究。国内对本雅明的研究基本上还是限于马克思主义和法兰克福学派的框架之中,而对他的犹太教思想传统和艺术批判理论重视不
高校德育方法一直以来都是理论界研究的重点问题,随着改革开放和社会的不断发展,人们的道德观念和价值取向都发生了较大的变化,尤其是在高校校园里,大学生不同程度的存在着人
<正>近年来商业银行风险管控呈现出了一些新的风险特征:客户跑路、失联、涉案等风险事件时有发生;表外和类信贷中各类"创新"业务风险逐步暴露;风险交叉传染现象严重,信用风险
亨斯迈公司目前使用传统的工厂电机驱动和监控模式,即通过断路器、接触器、控制继电器、互感器及各种电工仪表组合成的低压开关控制柜来实现电机的配电、控制、保护、监视等
公司清算作为公司终止的必经程序和核心环节,在公司法律制度中具有重要的意义。如果公司清算制度既能体现对公司股东利益的维护,还能兼顾到公司债权人和公司员工等其他利益主体