基于Hadoop的新闻事件数据查询与分析

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:letter0110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网技术发展,新闻数据量呈爆炸式增长,GDELT就是这样一个庞大且快速增长的全球新闻事件数据集,迄今约有四亿八千多万条数据。应对海量数据集时,由于传统的MySQL/Oracle体系大多适用于单机环境,其性能受到限制,导致存储空间的扩展性不足,分析计算的效率低下,无法保证查询的实时响应,最终影响了用户交互性。如何高效地实现大规模数据集下的快速检索并从中发掘出新的价值是本文研究的重点内容。论文分析了现有的分布式存储和搜索技术,以Hadoop平台为基础,通过对索引效率、查询速度以及计算效率的综合考量后,确定了以Solr作为分布式搜索引擎,Spark作为核心计算引擎的主要技术路线,提出了一套高效适用的解决方案。通过对Spark与Solr分布式技术的交互运用,充分发挥二者并行化工作的特点。利用Spark内存计算模型多任务并行读取Solr中的原始数据,对数据预先进行筛选、聚合、统计之后生成聚合统计表,再批量写回Solr。由此实现对原始大表的降维压缩,以减少后续查询的计算量,之后不同的业务查询需求直接在相关统计表上请求实现,该模块是系统得以快速响应的关键。基于上述关键技术,设计实现在线新闻服务系统——由ETL模块、统计模块以及查询分析模块共三部分构成。ETL模块负责将原始数据从HDFS批量索引到搜索引擎Solr中;统计模块负责将Solr中的数据进行预先聚合计算生成统计表;查询分析模块用于对新闻数据查询与分析结果进行可视化展示。研究工作和实验结果表明,本文阐述的集数据采集、存储优化、统计计算及查询结果可视化于一体的新闻服务系统实现了对海量数据的高效存储及快速检索,验证了本文所提方法的有效性和实用性。
其他文献
中国与东盟农产品零关税的进程2002年11月,中国与除菲律宾之外的东盟9国制订了“早期收获”方案,即在《框架协议》指导下提前实现部分减免关税内容,这次列入减免税对象的有500多
投资经营羊场存在着许多的盲目性和极大的风险性,仅仅依靠羊料比价决策规模化羊场投资经营的有利性显然已不能适应信息时代养羊业发展的需要.运用育肥羊销售价与育肥羊生产成
目的:探讨维生素B12片紫外鉴别及其含量测定方法。方法:采用避光条件下水洗除去糖衣至粉衣层,并避光室温下干燥;增大提取容量;以磷酸盐缓冲液(pH值5.0)为溶剂,密闭且避光超声10min ,强
2006年6月末,林甸县花园乡丰收村杜某的1头6岁龄围产期奶牛患上围产期脂肪肝,现将诊治情况报道如下。
我国农业政策性银行自2004年开始推进市场化运作。量化分析农发行市场化运作的程度,有助于研究市场化运作对农发行经营效率和社会效益的影响,对于推进我国农业政策性银行的改