一种分布式全文索引系统的设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户：longfei256

【摘要】

：

随着web2.0的到来，数据正在以不可想象的速度快速增长，大数据时代已经来临。海量数据中蕴含着巨大的价值，高效的海量数据管理，强大的海量数据检索分析处理能力，是大数据时代有力的

【作者】

：

郑君正

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2014年期

【关键词】

：

海量数据分布式全文索引系统数据新鲜度吞吐率查询性能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着web2.0的到来，数据正在以不可想象的速度快速增长，大数据时代已经来临。海量数据中蕴含着巨大的价值，高效的海量数据管理，强大的海量数据检索分析处理能力，是大数据时代有力的武器。如何快速索引、检索数据，在大数据时代具有重大价值和意义。　　本文首先综述了全文索引相关技术，分析了全文索引在线更新策略及其在分布式处理领域的技术现状。本文设计并实现了一个通用的、可扩展的分布式索引框架，在此基础上设计并实现了一个高可用、易扩展、高性能的分布式全文索引系统。本文的分布式全文索引系统以流水线的方式创建倒排索引，支持索引的在线创建、删除、更新和分布式查询，提供高吞吐的索引服务和高可用的查询服务。　　不同的应用对数据的新鲜度有不同的要求，本文分析了分布式全文索引系统中的数据新鲜度问题，提出了一种准实时索引机制，并对该机制的关键技术进行了详细的介绍和说明。本文的分布式全文索引系统同时支持准实时、增量和批量索引任务，在“索引库”层面对不同应用的数据新鲜度和性能进行控制。通过参数的调整和配置，上层应用可以对数据新鲜度和系统性能进行权衡，以满足不同的业务需求。　　最后，将本文提出的分布式全文索引系统集成到“D-Ocean”系统，进行性能测试，通过各个参数的调节，验证数据新鲜度和索引吞吐率以及查询性能之间的权衡。

其他文献

基于压缩编码的JPEG2000数字图像加密算法研究

随着物联网的兴起与应用，越来越多的多媒体数据在无线多媒体传感器网络中传输。由于传感器节点通常部署在公共环境中，容易受到窃听与篡改，其安全性受到严重威胁。WMSN具有能量敏

学位

JPEG2000MQ编码器选择加密WMSN

基于高斯加权与流形的彩色图像降噪算法研究与实现

随着数码相机以及其他彩色图像采集设备的不断普及，与灰度图像相比，彩色图像表现的信息丰富，所以人们更倾向于选取彩色图像作为信息获取的主要手段。然而，在彩色图像的获取、传输

学位

彩色图像降噪非局部均值PCA高斯加权流形

基于蒙古文标准编码的输入算法的优化、实现与分析

蒙古文具有悠久的历史,是我国重要的少数民族语言文字之一。蒙古文的信息处理工作深刻影响着蒙古族聚居区的政治、文化生活。而蒙古文输入法作为信息时代交流的工具,其发展更

学位

蒙古文蒙古文输入法规则CPN建模

基于DOMINO中的小企业工资管理系统的研究与实现

工资管理体系是衡量一个公司企业管理的重要标准之一,与其对应的工资管理系统则是公司管理的一个重要信息化工具。繁杂的Excel编辑或者其它手动管理,不但耗费了大量的人力资

学位

企业管理工资发放信息技术软件设计

基于Cloud Foundry的身份及访问管理框架设计与实现

云计算因其良好的发展前景受到了人们的广泛关注，越来越多的机构开始采用云计算模式。然而，云计算中也存在着包括身份认证及访问控制在内的众多安全问题，这些问题阻碍了云计算的

学位

云计算CloudFoundry平台访问控制单点登录

基于闪存的日志结构多版本存储引擎研究

闪存作为一种新的存储介质，凭借其性能上的优势，真正逐步代替磁盘。传统的数据库存储引擎是基于磁盘的特性设计的，而闪存与磁盘在特性上的差异决定了现有的存储引擎不能充分发挥

学位

闪存日志结构多版本存储引擎LZW算法压缩访问效率

多关系数据挖掘中的概率模型研究

随着现代存储和通信技术的发展，存储不断增长的大规模数据已经不再是难事，人们迫切地想从这些数据中获得有用的信息，因而如何有效地处理复杂数据并做有效的建模分析己成为计算机

学位

概率图模型混合主题模型因子分解协同过滤数据挖掘

数字图像局部颜色篡改检测研究

随着互联网的飞速发展以及数字图像设备的广泛普及，数字图像已经变成了主要的信息源。与此同时，大量的低成本，易于操作的图像编辑软件的出现，使得图像作为事件的事实记录的真实性

学位

数字图像颜色篡改检测算法纹理复杂度

蛋白质-肽段全柔性对接的并行计算研究

本文对蛋白质-肽段全柔性对接的并行计算进行了研究。蛋白质-肽段复合物相关的结构信息对于新药的研制和设计有非常重要的作用。蛋白质和肽段的计算对接方法可以为用实验方法

学位

蛋白对接数据挖掘并行计算程序语言

基于表肌电信号的手势模式识别研究与交互系统的设计

随着穿戴式设备的普及与发展，人机交互方式不断推陈出新，打破以往的交互界限，因而如何寻求更为高效自然的信息沟通方式成为行业的热点。肢体语言，尤其是骨骼肌运动所表征的含义成

学位

人机交互表肌电信号特征提取手臂模式识别Matlab编程

一种分布式全文索引系统的设计与实现

其他学术论文