实时压缩文本索引技术研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:qq540531049
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的不断发展导致网络信息量越来越庞大,这也给信息检索带来了很大的挑战。全文索引技术是搜索引擎、信息过滤等信息检索领域中的关键技术,全文索引是在庞大的文本字符串上建立的一种数据结构,利用该数据结构可以实现对原文本的任意子串进行高效搜索。传统的全文索引技术首先对原始文本建立索引,然后利用索引和原始文本实现对子串的搜索,所需空间大小是原始文本的4至20倍,造成了巨大的空间浪费。压缩的全文自索引技术是近期研究的热点,该技术仅利用索引即可完成子串搜索,并且可以从索引无损地还原出原始文本,是一种无需存储原始文本的自索引技术,在有些情况下,索引空间消耗不足原文本的50%,这就节省了很大的存储空间,压缩的全文自索引技术达到了很好的时间和空间的平衡。此外,压缩的全文自索引技术直接对二进制数据进行处理,索引的创建过程是与语义无关的,无需进行分词处理,这样就避免了自然语言分词技术带来的麻烦。本文的研究内容和取得的研究成果如下:(1)本文综述了关于压缩的全文自索引技术的典型算法,并在多种数据集上对各种压缩的全文自索引算法进行综合的测试评估,验证了压缩的全文自索引技术的有效性和实用性。(2)为了支持模糊搜索功能的应用需求,在压缩的全文自索引技术的基础上,研究并实现了支持通配符搜索、编辑距离搜索、正则表达式搜索的文本索引技术,对文本索引技术进行了功能扩展。(3)设计并实现了高性能文本索引系统,该系统采用可并行的压缩的全文自索引算法RLCSA作为基础解决方案,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度。该文本索引系统节省了空间开销,可以对文本进行实时索引,避免了自然语言分词方法的影响,,整个系统的实现是基于Web方式的,可以跨平台运行,满足了对社交网络等实时更新数据对文本索引实时性的需求。
其他文献
虽然数据库的应用已有30余年的历史,数据库中也积累了大量的数据,但数据挖掘却是20世纪80年代后期兴起的一门学科。这门学科的发展主要是应用驱动的结果。随着各行各业,特别是商
现有的网络管理软件需要真实的网络环境作为支撑,实现网络监视和管理的功能。如果在真实的网络环境中进行网络管理软件的开发和测试,不仅需要耗费大量人力物力进行网络环境的
计算机技术的飞速发展和广泛应用使当今社会积累了大量的数据,然而各种有用信息却被深埋在数据背后,难以为人们所用。因此研究如何从大量的数据中智能地、自动地采掘出有价值的
本文主要研究基于超媒体的智能教学系统的设计和开发。首先,在分析我国教学模式的基础上,以《线性代数》为智能教学系统的内容载体,建立了教学模型;其次,利用超媒体的特殊结构,使用