基于上下文无关文法的索引压缩算法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:GYQ865739853
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网和移动应用中,搜索引擎是人们检索信息的基础工具,并始终面临着性能问题的严峻挑战。搜索引擎的性能优化围绕着存储和计算两个关键命题,两者彼此制约且相互影响。倒排索引作为搜索引擎的核心数据结构,其压缩问题不仅涉及海量数据如何存储,同时会对召回计算效率产生直接影响。国内外的研究人员已经在倒排索引的压缩问题上积累了大量的研究成果。目前压缩倒排索引主要采用整数序列编码方案,通过精心设计的紧凑格式,降低数据元素的存储位宽。由人类语言书写的文档集合中,文档之间存在着天然的相似性。因此已经有研究者另辟蹊径,提出基于归约冗余的索引压缩方案。这种方案简化索引中重复内容的表述形式,降低索引文件的存储开销。尽管国内外的研究者对这种方案进行了诸多探索,但这些探索主要针对高重复度的特殊文档集,还缺少针对普通网页文档集的研究工作。更重要的是,很多工作没有考虑搜索引擎对召回计算效率的需求,缺少将归约冗余的压缩方案与召回计算有机地结合。除此之外,学术界的研究人员提出了多种基于Bitmap形式的索引结构。特别是近些年来,工业界已经实践了完全采用Bitmap形式实现的签名文件作为核心数据结构的文档召回模型,从而显著提升搜索引擎的文档召回效率。不过签名文件存在着严重浪费存储空间的突出问题,并且对可能采用的压缩方案提出了苛刻的设计需求。为了解决上述的这些难题,本文提出了基于上下文无关文法的压缩方案。针对倒排索引和签名文件分别设计了相应的压缩算法和文档召回算法,从而为搜索引擎优化问题中关于存储和计算的关键命题提出统一的解决方案。本文的具体工作包括如下三个方面:第一,提出基于上下文无关文法的倒排索引压缩算法和文档召回算法。本文首先分析网页文档集的倒排索引中普遍存在的数据冗余现象。针对这些冗余,提出了基于上下文无关文法的压缩算法搜索原始索引中的重复序列,并通过归约替换消除重复序列的存储开销。采用新编号替换重复序列,能够在降低索引存储开销的同时,为加速召回计算提供可行的优化方向。为了进一步提升压缩效果,本文提出了结合整数序列编码的文法压缩方案,并提出了完整的基于文法压缩和整数序列编码的分级索引结构。在Gov2索引和ClueWeb09索引中,编码文法方案比OptPFD编码方案分别减少至多17%和12%的文档编号存储位宽,同时会降低至多20%和8.4%的求交平均响应时间;它比Elias编码方案减少至多8.7%和6.4%的文档编号存储位宽,但会比后者增加至多15%和9.9%的求交平均响应时间。第二,提出优化文法索引时空性能的具体策略。首先针对网页文档集中文档相似度较低的问题,提出了一种自顶向下的文档重排算法,优化倒排列表中重复序列的分布情况。然后针对搜索引擎关于索引存储开销和召回计算效率的性能需求,提出了两种字典精简方案。两种方案分别基于归约序列对压缩效果和召回计算效率的实际贡献,有针对性地裁剪文法字典内容,提升索引的时空性能。最后通过分析文法压缩加速召回计算的具体原因,提出了适于文法压缩的选择性压缩方案。相比基于分段结构的PackedBinary编码方案,采用相同编码结构的选择性文法压缩方案在Gov2索引和ClueWeb09索引中分别减少至多11%和9.4%的文档编号存储位宽,并降低至多8.1%和14%的求交平均响应时间。第三,提出有损的基于上下文无关文法的签名文件压缩方案。首先通过具体分析和统计数据,阐述签名文件压缩问题的特殊性,提出解决相关难题的关键命题。然后针对关键命题,提出并验证了采用文法压缩方案的合理性与局限性。针对无损文法压缩方案的缺陷,提出了针对签名文件的有损文法压缩算法和序列求交算法。随后重点阐述有损压缩带来的压缩损失问题,提出并分析采用局部压缩的合理性与可行性。针对不同的局部选择策略,分别提出了选择性归约的文法压缩方案,以及基于文法压缩的混合索引方案。由Gov2文档集构建的签名文件中,选择性归约方案能够在召回错误率增幅不超过6.7%的条件下,降低原始签名矩阵约19%的存储位宽。在取得最优时空权衡结果的条件下,由Gov2文档集构建的混合索引会比归约签名文件降低约62%的存储位宽,但同时会增加约14%的求交平均响应时间。基于上下文无关文法的压缩方法为搜索引擎核心数据结构的存储和计算问题提供了完整的解决方案,同时也为提升索引结构在时空性能上的表现开拓了不同的优化思路。尽管本文是以搜索引擎的性能优化作为研究工作的应用背景,但所提方案在涉及大规模文档召回的相关场景中也是具有参考价值的。
其他文献
一、引言冶金原料采矿工程和矿物加工工程为矿业工程学科下的2个二级学科。中国的矿产资源开采和利用已有几千年的历史,是世界上矿业起源最早的国家之一。明代末年宋应星所著《天工开物》一书已经具体记述了当时的采矿、选矿和安全技术情况。我国的矿业工程学科则是在新中国成立后才真正奠定基础和逐步发展起来。经过60多年发展,我国冶金矿山采矿工程学科已经发展成为包含露天采矿、地下采矿、
中国传统文化元素是历史的发展与演变中逐渐形成的文化成果,凝聚着民族的智慧结晶,它不仅是符号的象征,它还传递着丰富的内涵信息。文章对中国传统文化元素和化妆品包装设计进行研究,探索中国传统文化元素对化妆品包装设计的意义与应用,结合传统文化与现代文化进行创新设计,以此开发出民族特色的化妆品包装设计产品。
MoS为无机功能材料,具有层状结构,人们制备出了一系列含不同客体物质的MoS插层化合物,以期制备出满足不同要求的含MoS的新型功能材料,如光、电、磁、热、催化等复合材料.基于锂插层MoS(LiMoS)的可剥离/重堆积性,本文在制得正丁基锂,继而合成锂的二硫化钼插层化合物的前提下,利用LiMoS在水中的强烈水解特性,剥离成稳定性和分散性良好的单层MoS悬浮体系.将氯化铵溶液与单层MoS悬浮液搅拌反应
学位
以硫酸钛为钛源,通过水热法直接制备了非金属共掺杂的TiO纳米颗粒和纳米管,并分别采用XRD、 Uv-vis、XPS和光催化反应对其结构和性能进行了研究.当以硼酸和硫酸为掺杂剂时,得到了B、S共掺的TiO催化剂(TiO-B-S).XRD表明该催化剂为锐钛矿晶型,硫硼掺杂能抑制TiO粒径的生长;UV-vis表明该催化剂对可见光吸收增强,吸收带边明显红移.XPS显示B、S共掺杂改性使得TiO-B-S表面
学位
电商行业的兴起带动了物流业的迅速发展,物流行已成为社会服务业中的支柱产业。M物流公司目前是国内物流业领军企业,主要业务是线上零售3C电子、图书音像制品、食品、家电等,并提供相应的物流配送服务。然而我国物流产业目前仍存在成本较高、企业客户满意度较低等问题。因此,本文以M物流公司为研究对象,开展M物流公司城区配送车辆路径优化的研究。首先,针对目前物流行业面对的问题,通过
随着第五代通信技术的商业化应用,高频高速信号的传输带来的信号完整性(SignalIntegrity,SI)问题变得越来越突出,除了对印制电路板(PrintedCircuitBoard,PCB)的板级设计、材料介电性能以及精细线路的制作工艺提出了更高的要求之外,表面终饰技术作为印制电路板最后一道化学制程工艺,涂覆层的性能将严重影响印制电路外层线路的信号完整性,因此有关
沙钢冷轧镀锌家电板白痕缺陷从2017年8月份开始,困扰冷轧连续稳定生产,影响镀锌产品质量,每月白痕判次率超3%,2017年12月份白痕缺陷判次达到8.7%。针对镀锌家电板白痕缺陷,酸轧及镀锌采取的大量攻关工作,改善效果甚微。通过对热轧工艺优化后,白痕缺陷得到很大改善,白痕判次比例大幅下降,2018年5月份判次比例下降到1.6%,6月份白痕判次比例更是控制在1%以下。
近年来,随着我国城市化进程和工业发展的不断加快,排放到环境中的城市污水量不断增加,对环境造成严重污染。20世纪70年代出现的高效厌氧生物处理技术以其投资少、运行成本低、产生生物能、剩余污泥产量少等优点越来越受到人们的重视,尤其适用于经济尚不够发达但环境污染严重的发展中国家。城市污水排放量大但有机污染物浓度较低,20世纪80年代出现的第三代高效厌氧反应器膨胀颗粒污泥床(EGSB)反应器具有升流速度高
目的探究大脑中动脉狭窄血管内治疗前后认知功能的变化及其可能机制。方法选取大脑中动脉狭窄患者22例为研究对象,根据是否接受血管内治疗分为治疗组10例和对照组12例。所有受试对象于术前3天、术后3天和术后3月进行评估,比较两组认知功能变化差异。采用简易智能状态量表(MMSE)、蒙特利尔认知评估量表(MoCA)、剑桥老年认知检查量表中文版(CAMCOG-C)、语言流畅性测
数据认责管理是企业开展数据治理的一项重要的基础性工作,有助于明确企业范围内各干系方的数据管理角色及对应职责,形成责任明确的数据管理工作网络,建立人人有责、人人尽责的企业数据管理文化。本文根据贵州电网公司所开展的数据认责管理机制建设工作,介绍了电网企业多层级组织架构下开展数据认责管理的思路和做法,包括数据管理角色的划分、数据主责部门的判定、多层级的数据认责管理组织结构