论文部分内容阅读
随着web2.0的到来,数据正在以不可想象的速度快速增长,大数据时代已经来临。海量数据中蕴含着巨大的价值,高效的海量数据管理,强大的海量数据检索分析处理能力,是大数据时代有力的武器。如何快速索引、检索数据,在大数据时代具有重大价值和意义。 本文首先综述了全文索引相关技术,分析了全文索引在线更新策略及其在分布式处理领域的技术现状。本文设计并实现了一个通用的、可扩展的分布式索引框架,在此基础上设计并实现了一个高可用、易扩展、高性能的分布式全文索引系统。本文的分布式全文索引系统以流水线的方式创建倒排索引,支持索引的在线创建、删除、更新和分布式查询,提供高吞吐的索引服务和高可用的查询服务。 不同的应用对数据的新鲜度有不同的要求,本文分析了分布式全文索引系统中的数据新鲜度问题,提出了一种准实时索引机制,并对该机制的关键技术进行了详细的介绍和说明。本文的分布式全文索引系统同时支持准实时、增量和批量索引任务,在“索引库”层面对不同应用的数据新鲜度和性能进行控制。通过参数的调整和配置,上层应用可以对数据新鲜度和系统性能进行权衡,以满足不同的业务需求。 最后,将本文提出的分布式全文索引系统集成到“D-Ocean”系统,进行性能测试,通过各个参数的调节,验证数据新鲜度和索引吞吐率以及查询性能之间的权衡。