基于MongoDB的非结构化数据管理的研究与应用

来源 :电子科技大学 | 被引量 : 9次 | 上传用户:wangyaoxf520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的不断发展,互联网数据的主流逐渐从结构化数据转变为非结构化数据,然而非结构化数据具有种类繁多、规模巨大且难以标准化的特点,管理相当困难。运用大数据技术实现高效的非结构化数据管理是重要的研究方向。因此,有了本论文的研究内容。本文主要研究内容分为三部分:MongoDB、非结构化数据管理,及MongoDB应用于非结构化数据管理。设计并实现基于MongoDB,结合其他大数据技术的非结构化数据管理系统是康赛公司共享数据中心的升级项目,是本文应用的主要体现。首先,本文对选题的背景、来源、研究内容及贡献、NoSQL数据库研究现状做介绍,总结非结构化数据管理的研究方向,介绍每个方向上的研究现状。在此基础上,通过自己的总结和分析对非结构化数据管理的总体架构进行介绍,并对各模块的关键技术进行深入研究,为本文的研究、设计与实现工作打下基础。然后,本文详细介绍系统的研究与设计工作。通过研究MongoDB、HDFS及关系数据库的特性,确定MongoDB存元数据和小文件,HDFS存大文件的存储方案。接着,通过分析生产环境下数据采集模块的实际应用,设计基于Zookeeper和负载权值的数据采集协调器。通过研究MongoDB全文索引的不足,设计基于MongoDB+ElasticSearch的数据写入与数据读取分离的检索功能并提出一种MongoDB的分页优化方法。随后,通过研究信息孤岛和信息整合,设计应用服务接口。通过分析大数据量下查询与计算的问题,设计基于MongoDB的查询与计算分离的统计分析功能。通过研究MongoDB自动分片和副本集,设计系统扩展性和高可用性,同时提出一种基于增删改查频率的MongoDB数据块迁移方法。紧接着,介绍系统应用层数据库的设计,通过用户权限表实现用户级的数据共享。最后,本文详细介绍系统的实现工作。按照系统性能设计,进行MongoDB的物理部署。结合HttpClient和poi实现主动采集功能,提供一种根据文件流的特定字节标识判断文件类型的方法。通过研究数据采集时的用户体验度问题,提出一种基于缓存的数据采集优化方法。实现基于MongoDB+ElasticSearch的检索功能,提出一种基于ES原始计分函数,结合文档热度的相关度计分方法。实现基于WebService的服务接口。实现基于MapReduce+Kmeans算法,结合热度的文件分类。
其他文献
在西方文明史上,导演了苏格拉底之死这场悲剧的是历来被奉为民主政治楷模的雅典城邦。一个以追求真理而流芳后世的哲学家,何以被标榜民主自由的雅典城邦处死呢?多数人的民主
设计了一种利用GPS/GPRS/GIS技术评价物流基地选址方案服务能力的新方法。利用数据挖掘的思想,从GPS采集的货车轨迹数据中,挖掘城市路网货运通道的通行速度和配送点分布情况,
管理会计课程是会计专业的主干课程,是会计专业知识结构中的主体部分,管理会计课程教学改革是高职高专财会课程教学改革的重要部分。管理会计课程改革要基于"校企合作、工学
<正>哈尔滨是全国产粮第一大市,探讨实行土地休耕制度有利于改良土壤成分,对调整粮食供求关系、提高耕种效益、实现农业可持续发展具有重要意义。目前,我市在土地利用、耕地
REST是表达性状态传输,实质是针对网络应用的设计和开发方式,能有效降低开发的复杂性,同时提高系统的可伸缩性,在地理服务的表达构建中有着重大的实际意义。介绍了REST技术及
<正>翻开这几年的江苏高考满分作文,不难看出,形式灵活、结构精巧、语言风趣的议论性散文占据了半壁江山。相对于传统的议论文来说,议论性散文形式更灵活。它内容广泛,也不是
英语核心素养既具有学生发展核心素养的共性,又具有自己的特征和独特的育人价值。在理解英语核心素养内涵的前提下,结合当前国内培养英语核心素养的策略与方法,以一节高三英
农村集体经济组织成员身份认定是农村产权制度改革的基础工作。近几年来城镇化进程的加快,使得农村人口流动、户籍变动,农村集体经济组织人员数量与结构变动频繁,农村集体经
本文从地域象征符号、信息载体符号、社会交往符号、艺术审美符号四个方面阐述了广府早茶的象征意义。认为,"饮早茶"作为一种独特的吃早餐形式,与广府的风土人情密不可分。人
随着国家间区域经济一体化程度的加深,中国同周边国家的经济合作的必要性和重要性越来越凸显。中国和俄罗斯同为世界大国,且在农业方面又表现出非常高的互补性,所以,中俄农业