多源异构数据检索系统的研究与设计

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:czy239239
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,对海量数据的研究主要集中在对数据的存储、检索、挖掘和分析等方面,并且基本上都是基于某一特定的应用场景以及特定的数据源而进行的研究。互联网飞速发展和广泛应用的今天,短时间内就会有大量的、各种各样的数据产生,这些数据有表格、文本、音频、视频等,数据的存储格式也各不相同、各有特点。现实中,也会因为某种需要,要求对这些多源异构数据进行集中统一存储管理,而同源同构数据下的技术方案和算法并不能直接用于对多源异构数据的处理。因此,对多源异构数据的高效存储以及快速检索问题的研究具有重要的现实意义。本文主要工作是针对多源异构数据的存储问题和检索问题开展研究,旨在为多源异构数据的高效存储和快速检索提供参考方案,主要内容如下:(1)针对多源异构数据的存储问题,本文首先根据数据特点进行分类,比如分为表格数据、文本数据等,然后通过程序实现将不同形式的表格数据统一转换为文本数据,并将其存入HBase数据库中。在数据写入数据库的过程中,通过在HBase中建表时进行预分区处理,再将数据统一转换后生成的统一ID进行哈希散列处理后的结果作为Row Key进行数据存储,使得数据能够均匀的分布在不同的HBase分片上,避免了数据分布不均衡问题。(2)针对多源异构数据检索问题,本文引入支持分布式多用户能力的全文搜索引擎Elasticsearch,弥补了HBase在多字段复杂查询方面的不足。基本方法就是:首先根据HBase中的数据字段的查询频率的不同,将查询频率最高的六个字段在Elasticsearch引擎中建立索引库;然后在建立索引分片时,通过综合Elasticsearch集群中每个节点的剩余存储空间和分片的大小确定最佳索引分片数,根据最佳索引分片数建立索引;最后再通过对索引分片数量进行优化设置,在数据分布、数据写入效率和数据查询时延等方面提高系统性能。测试与验证结果表明:本文设计的一种基于HBase存储+Elasticsearch提供二级索引数据检索方案在数据存储时通过对建立的数据表进行预分区处理和对写入数据行键进行哈希散列,在不同大小的测试数据集和集群节点下,与HBase默认情况下相比,数据分布较为均衡,数据写入效率也有明显提升。在进行索引创建时通过对索引分片相关系数进行优化,确定索引的分片数目,与系统默认的5个分片数目相比,在索引数据量、集群中节点数目不同的情况下,优化后索引的分片数目能够根据节点剩余空间进行动态调整,有效降低数据写入时间和查询时延。
其他文献
基于结构轻量化特征的管材液压胀形技术(Tube Hydroforming)近年来正得到快速发展。应用该技术成形的中空零部件普遍具有轻质量、高强度、表面质量佳等优点,目前正被逐步推广到航空航天和汽车等领域的零部件设计与制造。然而,该技术在工业生产过程中出现了效率低下、设备成本高等不足。冲击液压胀形技术(Liquid Impact Forming)将传统液压胀形技术和冲压成形技术相结合,通过冲压实现管
由于计算、无线通信和微机电技术的不断发展,无线传感器网络获得了广泛的应用。无线传感器网络是由许多传感器节点自组织组成的网络,而通常情况下这些节点自身的能量有限。数据采集是无线传感器网络的重要功能之一,也是节点能耗产生的主要过程,在实际应用中,数据传输过程一般根据路由协议执行。路由协议从结构上来说,主要分为平面型和层次型,层次型路由协议是一种更加适用于大规模传感器网络场景的路由协议,可以有效提高网络
车辆之间的相互通信能够有效的缓解交通堵塞,避免道路交通事故的发生。随着车辆保有量呈爆发式上升,车载通信业务的种类越来越多,对服务质量的要求越来越高,尤其是对时延服务质量(quality of service,QoS)有着较为严苛要求的道路安全信息相关业务,这些都对车联网的性能提出了挑战。现有车联网大多是基于专用短程通信技术(Dedicated Short Range Communication,D
在长距离自由空间光(FSO)通信中,信号强度会因为受到湍流、散射、吸收等因素的影响而衰减,而大气湍流是最重要的因素。大气湍流会干扰光束的传输,降低光通信系统的性能,最终影响通信质量。除了采用传统的差错控制技术以外,寻求优异的信道编译码技术并研究能对抗长延时、高误码的数据传输机制,对提高自由空间光通信的可靠传输能力具有重要意义。数字喷泉码是一种没有固定编码速率约束的编码方式,它不需要确知信道状态便可
近年来,利用计算机控制技术、人工智能技术和通信技术可以实现更好的交通容量和交通安全。智能驾驶系统中的车道偏离预警系统、智能巡航控制、车辆碰撞预警系统等功能,提高了车辆行驶的智能性,大大地减少交通事故发生,提高了交通系统的安全性。视觉感知是智能驾驶系统关键的技术之一,智能驾驶车辆所做的所有重要决策都依赖于对周围环境的视觉感知。基于感知结果,智能系统才可以进一步做出控制和操纵车辆的决策。本文主要利用机
惠更斯超表面是一种新型超表面,与其他的超表面相比,惠更斯超表面在结构构建上包含电谐振和磁谐振两部分,通过调节电谐振和磁谐振的结构参数,惠更斯超表面可以实现对电场和磁场的单独调控,从而实现对电磁波的自由调控。由于惠更斯超表面对电磁波出色的调控能力,因此广泛用于平板透镜、极化转换器、成像系统等器件的设计。本文围绕惠更斯超表面的电磁特性及其在天线上的应用展开研究,详细分析了惠更斯超表面的工作原理,并且设
随着物联网(Internet of Things,Io T)的快速发展与大规模应用,单一的传统通信技术已经无法满足物联网时代的需求,有针对性地使用两种或多种技术的组合,作为智能终端在物联网中的通信技术已成为必然。本课题将同时使用可见光通信(Visible Light Communication,VLC)与电力线通信(Power Line Communication,PLC)作为物联网的通信技术,以
近些年,携带螺旋相位波前的涡旋电磁波引起了各国科研人员的极大兴趣。由于涡旋电磁波具有螺旋相位的波前分布特点,使得它在通信传输、量子编码、粒子操纵、光学成像以及光刻技术等领域具有广阔应用前景,尤其在通信领域应用潜力巨大。由于轨道角动量是描述电磁波物理属性的新维度,因此如果对电磁波的轨道角动量进行单独编码或者作为载波携带信息,再结合传统的波分复用、正交幅度技术以及极化分复用等复用技术,可以极大提高通信
全球卫星导航系统(Global Navigation Satellite System,GNSS)作为一个国家现代智能信息化发展的重要基础设施。在近40年来,卫星导航在国家国防安全、社会经济发展以及人民日常生产生活等领域都发挥着越来越重要的作用。GNSS导航信号从卫星传到用户两万公里左右的传输过程中存在着复杂的空间电磁环境,且由于系统脆弱性,系统突发事故等,为了保证系统信号的可靠安全,需要对卫星信
通常,消费者在线购物时会根据商品的专有名词以及一些属性信息对其进行检索,用户在浏览商品时也会关注于商品属性方面的信息特征,因此分析出商品信息中关于特定属性方面的观点信息对提升商品的服务与质量是有必要的。细粒度的用户观点对商品的认知具有引导作用,可以影响消费者的购物决策,同时也为企业了解产品的属性特征提供了必要的信息反馈,具有重要的参考价值。本文的主要工作围绕着商品的观点分析展开,意旨分析出更详细、