黄页信息检索系统的研究及实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户：bitdefender2009

【摘要】

：

随着“信息爆炸时代”的来临，如何更快、更准、更方便的搜寻到数据已经成为了当代社会关注的焦点。在这种需求的刺激下，搜索引擎技术成为了计算机科学的研究热点。顺应这股潮流

【作者】

：

杨笑天

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2007年期

【关键词】

：

互关联后继树双排序后缀数组 DC算法黄页信息检索系统检索标准

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着“信息爆炸时代”的来临，如何更快、更准、更方便的搜寻到数据已经成为了当代社会关注的焦点。在这种需求的刺激下，搜索引擎技术成为了计算机科学的研究热点。顺应这股潮流复旦大学上海(国际)数据库研究中心、上海旦茂数字技术有限公司及中国电信于2005年到2006年间，合作开发了“黄页信息检索系统”，较好的解决了客户在黄页信息搜索方面的需求。本文以该系统为基础，着重在以下两个地方进行了研究和探讨。第一，本文分析了互关联后继树模型的发展历程，发展过程中各种不同的后继树模型，并在此基础上提出了称为“双排序”模型的新的创建算法，将“双排序”的互关联后继树模型同后缀数组(suffix array，也称为．PAT数组)创建方法结合了起来。该算法去掉了两次扫描文本的需要，可以在后缀数组的创建过程中有机的结合如互关联后继树的建立，很大的提升了时间效率。同时，本文进一步给出了同Difference Cover算法结合的途径，很大地提高了“双排序”创建算法的应用范围。并且在实验的基础上，给出了两种算法的不同效果、适用范围、以及参数设定的基本准则。我们发现双排序模型在其构建算法上有了很大程度的提高，在时间和空间效率上同后缀数组的创建算法基本持平，而在完成创建后，数据结构的的空间效率得到了很大的提高，并扩展了其查询的能力。第二，本文探讨了黄页信息信息检索系统的设计、实现、发布和评测，从需求分析、系统结构设计、网站建设等方面总结了互关联后继树在向工程项目转化过程中的要点和经验。并在实际的项目的评测中提出了新的检索标准。该标准在TREC(文本检索会议)基础上进行了改进，从而让其能够适应黄页信息系统复杂的测试环境，提出了新的MAP(平均准确率)算法。由此完成了黄页信息检索系统的测试工作，这对未来的非确定环境下的信息检索评测工作起有一定的借鉴作用。

其他文献

字符型数据加密算法及安全研究

数据库系统担负着对数据信息访问控制和存储的任务，数据库不安全的主要原因之一是原始数据以明文可读形式存放在数据库中，如果对数据库中的数据进行加密处理，那么上述问题可以得

学位

数据库加密字符数据加密查询特征值

基于机器学习的汉语词性自动标注系统

长久以来，人们就想制造出一种具有智能的机器，它能通过自然语言与人类交流并服务于人类。计算机的出现和迅速发展为这个梦想的实现带来了希望。因此，人们迫切地需要计算机具有理

学位

机器学习词性标注最大熵高斯平滑BLMVM算法

匿名用户浏览路径挖掘研究与实现

随着网络规模和网络用户的快速增长，理解用户对网络的浏览模式变得越来越重要，因为其对于网络结构的优化、站点的重构，个性化服务和推荐的产生等具有重要的意义。在实际情况

学位

匿名用户Web数据挖掘匿名用户频繁路径匿名用户兴趣路径典型匿名用户路径

基于网络编码的应用层组播算法研究

2000年，Ahlswede等人基于网络信息流的概念提出了网络编码的思想。通过允许网络节点进行编码，可以获得网络组播速率的最大流限，即网络资源利用的理论上限，而通过传统的路由和复制

学位

应用层组播网络编码最大吞吐量最小费用最大流

LCD控制器IP核的设计研究

液晶显示器LCD(Liquid Crystal Display)现在已经广泛应用于手机、 PDA(Personal Digital Assistant)等便携式电子产品中。LCD控制器则是系统和LCD之间的接口部件，是系统显示

学位

LCD控制器Avalon总线液晶显示器IP核设计

基于业务基础软件平台的企业建模方法的研究与应用

平台化是管理软件的发展趋势。传统的管理系统是在低层的技术平台上直接构建的，采用面向技术、业务无关的“原始”编程工具进行开发，这直接导致了所开发的管理系统具有两个重大

学位

企业模型动态企业建模企业模型自动化企业参考模型业务基础软件平台

ARM全系统模拟器中模拟串口和网卡的设计和实现

随着计算机和通信技术的不断发展，嵌入式系统的应用日益广泛，但传统的开发方法限制了软件开发人员，因为软件的调试，需要在真实的目标系统上完成。为了解决这个软件开发的瓶颈，全系

学位

串口网卡全系统模拟器伪终端工具链

基于渡越矩阵与语境计算模型的复句关系词的自动标注

自然语言理解是人工智能领域的经典难题，目前国内外有大量的研究。在汉语信息处理领域，相应的研究应该包括有字处理、词处理、句处理、篇章处理。然而到目前为止，关于汉语理解的

学位

中文信息处理复句关系词渡越矩阵语境计算模型

基于SAN的存储管理软件的设计与实现

新的网络存储技术——SAN(Storage Area Network)以其自身多方面的优势，为日益增长的信息存储和管理提供了良好的解决方案，成为网络存储理想的管理和应用模式。但目前，SAN的管理

学位

存储区域网SAN存储管理光纤通道

基于多核环境下的多线程并行程序设计方法研究

在过去十年里，随着众多领域并行计算需求的迅速增长而硬件又受到摩尔定律的严重制约，多核CPU现在被越来越多的应用于并行计算机中，于是基于多核处理器的并行程序设计技术也就成

学位

并行计算异构计算混合编程CPU+GPUGPGPUCUDAOpenC

黄页信息检索系统的研究及实现

其他学术论文