黄页信息检索系统的研究及实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:bitdefender2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“信息爆炸时代”的来临,如何更快、更准、更方便的搜寻到数据已经成为了当代社会关注的焦点。在这种需求的刺激下,搜索引擎技术成为了计算机科学的研究热点。顺应这股潮流复旦大学上海(国际)数据库研究中心、上海旦茂数字技术有限公司及中国电信于2005年到2006年间,合作开发了“黄页信息检索系统”,较好的解决了客户在黄页信息搜索方面的需求。 本文以该系统为基础,着重在以下两个地方进行了研究和探讨。 第一,本文分析了互关联后继树模型的发展历程,发展过程中各种不同的后继树模型,并在此基础上提出了称为“双排序”模型的新的创建算法,将“双排序”的互关联后继树模型同后缀数组(suffix array,也称为.PAT数组)创建方法结合了起来。该算法去掉了两次扫描文本的需要,可以在后缀数组的创建过程中有机的结合如互关联后继树的建立,很大的提升了时间效率。同时,本文进一步给出了同Difference Cover算法结合的途径,很大地提高了“双排序”创建算法的应用范围。并且在实验的基础上,给出了两种算法的不同效果、适用范围、以及参数设定的基本准则。我们发现双排序模型在其构建算法上有了很大程度的提高,在时间和空间效率上同后缀数组的创建算法基本持平,而在完成创建后,数据结构的的空间效率得到了很大的提高,并扩展了其查询的能力。 第二,本文探讨了黄页信息信息检索系统的设计、实现、发布和评测,从需求分析、系统结构设计、网站建设等方面总结了互关联后继树在向工程项目转化过程中的要点和经验。并在实际的项目的评测中提出了新的检索标准。该标准在TREC(文本检索会议)基础上进行了改进,从而让其能够适应黄页信息系统复杂的测试环境,提出了新的MAP(平均准确率)算法。由此完成了黄页信息检索系统的测试工作,这对未来的非确定环境下的信息检索评测工作起有一定的借鉴作用。
其他文献
数据库系统担负着对数据信息访问控制和存储的任务,数据库不安全的主要原因之一是原始数据以明文可读形式存放在数据库中,如果对数据库中的数据进行加密处理,那么上述问题可以得
长久以来,人们就想制造出一种具有智能的机器,它能通过自然语言与人类交流并服务于人类。计算机的出现和迅速发展为这个梦想的实现带来了希望。因此,人们迫切地需要计算机具有理
随着网络规模和网络用户的快速增长,理解用户对网络的浏览模式变得越来越重要,因为其对于网络结构的优化、站点的重构,个性化服务和推荐的产生等具有重要的意义。 在实际情况
2000年,Ahlswede等人基于网络信息流的概念提出了网络编码的思想。通过允许网络节点进行编码,可以获得网络组播速率的最大流限,即网络资源利用的理论上限,而通过传统的路由和复制
液晶显示器LCD(Liquid Crystal Display)现在已经广泛应用于手机、 PDA(Personal Digital Assistant)等便携式电子产品中。LCD控制器则是系统和LCD之间的接口部件,是系统显示
平台化是管理软件的发展趋势。传统的管理系统是在低层的技术平台上直接构建的,采用面向技术、业务无关的“原始”编程工具进行开发,这直接导致了所开发的管理系统具有两个重大
随着计算机和通信技术的不断发展,嵌入式系统的应用日益广泛,但传统的开发方法限制了软件开发人员,因为软件的调试,需要在真实的目标系统上完成。为了解决这个软件开发的瓶颈,全系
自然语言理解是人工智能领域的经典难题,目前国内外有大量的研究。在汉语信息处理领域,相应的研究应该包括有字处理、词处理、句处理、篇章处理。然而到目前为止,关于汉语理解的
新的网络存储技术——SAN(Storage Area Network)以其自身多方面的优势,为日益增长的信息存储和管理提供了良好的解决方案,成为网络存储理想的管理和应用模式。但目前,SAN的管理
在过去十年里,随着众多领域并行计算需求的迅速增长而硬件又受到摩尔定律的严重制约,多核CPU现在被越来越多的应用于并行计算机中,于是基于多核处理器的并行程序设计技术也就成