互关联后继树索引模型的改进研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:canghaiyuemenglong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的迅速发展,信息越来越呈现出海量化和多样化的特征。传统的信息检索技术只擅长处理结构化数据,为处理大规模文本等非结构化数据,一种新的信息检索技术——全文检索技术就此产生了。经过几十年的发展,全文检索已经从最初的字符串匹配程序演变成为能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的工具,在数字图书馆和搜索引擎等领域有着广泛的应用。全文检索的性能取决于所使用的全文索引模型,它可以提供对非结构化海量数据的有效管理和快速查询。本文主要介绍了一种新型的全文索引模型——互关联后继树(文中简称为IRST)的研究进展,并对其最新发展分支双排序互关联后继树(文中简称为DIRST)进行了深入研究与改进。双排序互关联后继树模型具有自描述性、有序性和压缩性,本文主要围绕这三个方面,做了以下工作:1.改进索引结构,提出并证明了后继生成定理,高效地完成了双排序互关联后继树的原文生成算法;2.在基于后继区间的逆向区间二分搜索算法基础上进行查询的优化,引入了二分验证查询算法;3.提出并证明了解区间收缩定理,对后继编号以及双字节的上下界进行了线性化处理,提出了线性优化查询算法;4.对几种主流全文索引在一些方面进行了比较,得出双排序互关联后继树模型的综合性能比现有的其它主流模型性能都要好的结论;5.介绍了互关联后继树文本检索系统,并通过具体的实验数据表明,改进后的双排序互关联后继树模型性能得到了显著的提高;6.提出了对双排序互关联后继树模型的索引创建算法以及后继编码压缩算法进一步改进的思想。
其他文献
医学图像分割是医学图像处理与分析的一个重要领域,同时也是计算机辅助诊断与治疗的基础。所谓图像分割就是根据某种均匀性(或一致性)的原则将图像分成若干个有意义的部分,使
多媒体数据的数字化为多媒体信息的存取提供了极大的便利,各种数据可以自由地发布到网上,但是盗版问题也随之而来。数字水印技术是解决这一问题的有效途径,它通过在数字媒体(
集成了传感器、嵌入式技术、分布式信息处理技术和无线通信技术而形成的无线传感器网络(wireless sensor network ,简称WSN)是一种全新的信息获取和处理技术。但由于无线传感
网络教学作为一种新的教学手段,充分利用了计算机、网络和多媒体等技术手段,使教学行为能够跨越时间、空间的限制,具有极大的灵活性和交互性。同时,对比传统教学方式,网络教
眼睛不仅是人们观察、了解外部世界的一个重要器官,更是人们心灵的窗口。稳定的眼球跟踪与视线估计系统已经在心理学、军事、市场调研和广告测试、计算机视觉、医学等领域有
随着网络服务日趋多样化和个性化,业务选择网关应运而生。在访问量和数据流量剧增、计算强度加大的应用环境下,如何保证服务质量和提升用户体验,为本文的研究提出了挑战。为
无线传感器网络是由随机分布的集成了感知模块、数据处理单元和通信模块的微小节点,通过自组织方式构成的网络,其目的是协作地感知、采集和处理网络覆盖区域中感知对象的信息,获
为了促进以手机电视为代表的移动流媒体应用,DVB组织提出DVB-IPDC应用框架来融合当前数字广播与移动通信网络的相关服务。通知框架规范是DVB组织最新提出的有关DVB-IPDC应用框
随着企业规模和应用业务量的快速增加,业务终端分散化是一种发展趋势,采用有效的方法管理和控制终端中应用程序运行状况和信息的使用十分关键,开展相关理论和技术的研究具有
运动目标检测与跟踪是计算机视觉中一个重要的研究方向,它融合了计算机图像处理、模式识别与人工智能等诸多相关领域的知识,并在军事视觉制导、机器人视觉导航、智能人机交互、