基于文法压缩的倒排索引求交算法设计

来源 :南开大学 | 被引量 : 0次 | 上传用户:Rainwave
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网网页数量的日益增多,如何提高搜索引擎的效率是近些年学术界及工业界都在极力解决的问题。搜索引擎的基本检索数据结构是倒排索引,近几年,许多研究都专注于提升倒排索引的压缩率和求交效率。目前,主流搜索引擎的倒排索引使用的是算术编码技术,文法压缩算法在倒排索引上的应用并不广泛。本文探讨并改良了一种适用于倒排索引的文法压缩技术,在兼顾倒排索引压缩率的同时,设计了适用于文法压缩的高效的求交算法。  本文的具体工作包括以下几个方面:  第一,本文系统地回顾了倒排索引的压缩及求交算法,并将文档重排技术也纳入了研究讨论的范围,对现有的重排技术进行了总结。倒排索引的链表中有许多重复的文档序列,传统的算术编码算法在压缩和求交过程中并没有使用这些信息。本文利用文法压缩算法对倒排列表之间的重复序列进行了抽取,并将其应用到了倒排索引的求交过程之中。  第二,本文设计了基于文法压缩的倒排索引求交算法,并为优化求交效率改良了索引格式。在文法压缩算法的压缩过程中,会将重复的序列集中存储到字典中,并用Pattern(产生式)代表某一段重复的序列。其中归约产生的 Pattern和字典都是传统求交技术中没有的元素。本文针对这些新的列表元素设计了搜索算法,设计了适用于文法压缩的求交算法,并针对求交过程优化修改了文法压缩的归约过程。  第三,本文对文法压缩后的倒排列表的求交效率进行了优化。不仅使用了传统的求交技术优化,还加入了文档重排、Run-Length等相关技术。本文通过这些手段优化了文法压缩下的倒排索引求交算法,使其求交效率有了较明显的提高。同时本文在GOV2数据集上对优化后的求交算法进行了测试,通过实验证明了本文提出的求交算法可以有效地提升查询处理的效率。
其他文献
随着大规模数据库的广泛使用和Internet的迅速发展,全球范围内数据库中存储的数据量迅速增大。如何从海量的、多样的数据中挖掘潜在的、有用的信息,成为当前知识发现的主要研
目前,蚁群算法和数据挖掘技术研究已成为国际智能计算领域的研究热点和前沿性课题。本文的主要研究目是:进行蚁群算法、数据挖掘技术、聚类分析技术研究;进行蚁群算法在聚类
随着基于可重构器件的快速发展和使用,基于FPGA的可重构技术逐渐成为国际上嵌入式计算领域中的一个新热点。由于可重构器件既有硬件电路高效计算的优良性能,也具有多次编程、易
随着互联网技术的飞速发展,数据与日俱增,用户更加关心信息获取的实时性、准确性和相关性,而面向文档的互联网已无法满足当前的需求。语义网是一个面向数据的网络,它把所有的数据
在教育资源信息化进程中,智能主机终端不断地被引入到基础教育课堂与课下教学中,但是多数情况下智能终端仅作为教育资源的辅助输出展示平台。由于智能终端编辑软件有较高用户知
远程教育是一种学生与教师分离的,采用特定的传输系统和传播媒体进行教学的教育方式。它的信息传输方式多种多样,学习的场所和形式灵活多变。远距离教育的优势在于它可以突破
数字水印技术是近十几年来提出的一种有效的数字产品版权保护技术。但目前每一种水印算法是不可能,也根本做不到抵抗所有的攻击。研究的目标往往是针对某一类的攻击而设计算
数据聚类是重要的数据挖掘技术,聚类技术将末标记对象通过其相似度进行分组,使得组内对象的相似度最大而组问对象的相似度最小,从而发现对象的内在特性。然而,一些数据的结构和分
随着无线网络和移动通信技术的发展,智能手机功能日趋强大,设备价格及通信资费的也随之降低,这些都促使智能手机被广泛使用。同时它也面临着数据的非法访问、信息丢失、信息
随着信息技术的发展,软件规模不断扩大,如何保证和提高软件质量成为软件工程最为关心的问题之一。软件测试作为保证软件质量的关键技术之一,能够有效地发现软件中的故障。但