论文部分内容阅读
互联网的不断发展导致网络信息量越来越庞大,这也给信息检索带来了很大的挑战。全文索引技术是搜索引擎、信息过滤等信息检索领域中的关键技术,全文索引是在庞大的文本字符串上建立的一种数据结构,利用该数据结构可以实现对原文本的任意子串进行高效搜索。传统的全文索引技术首先对原始文本建立索引,然后利用索引和原始文本实现对子串的搜索,所需空间大小是原始文本的4至20倍,造成了巨大的空间浪费。压缩的全文自索引技术是近期研究的热点,该技术仅利用索引即可完成子串搜索,并且可以从索引无损地还原出原始文本,是一种无需存储原始文本的自索引技术,在有些情况下,索引空间消耗不足原文本的50%,这就节省了很大的存储空间,压缩的全文自索引技术达到了很好的时间和空间的平衡。此外,压缩的全文自索引技术直接对二进制数据进行处理,索引的创建过程是与语义无关的,无需进行分词处理,这样就避免了自然语言分词技术带来的麻烦。本文的研究内容和取得的研究成果如下:(1)本文综述了关于压缩的全文自索引技术的典型算法,并在多种数据集上对各种压缩的全文自索引算法进行综合的测试评估,验证了压缩的全文自索引技术的有效性和实用性。(2)为了支持模糊搜索功能的应用需求,在压缩的全文自索引技术的基础上,研究并实现了支持通配符搜索、编辑距离搜索、正则表达式搜索的文本索引技术,对文本索引技术进行了功能扩展。(3)设计并实现了高性能文本索引系统,该系统采用可并行的压缩的全文自索引算法RLCSA作为基础解决方案,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度。该文本索引系统节省了空间开销,可以对文本进行实时索引,避免了自然语言分词方法的影响,,整个系统的实现是基于Web方式的,可以跨平台运行,满足了对社交网络等实时更新数据对文本索引实时性的需求。