论文部分内容阅读
随着“信息爆炸时代”的来临,如何更快、更准、更方便的搜寻到数据已经成为了当代社会关注的焦点。在这种需求的刺激下,搜索引擎技术成为了计算机科学的研究热点。顺应这股潮流复旦大学上海(国际)数据库研究中心、上海旦茂数字技术有限公司及中国电信于2005年到2006年间,合作开发了“黄页信息检索系统”,较好的解决了客户在黄页信息搜索方面的需求。
本文以该系统为基础,着重在以下两个地方进行了研究和探讨。
第一,本文分析了互关联后继树模型的发展历程,发展过程中各种不同的后继树模型,并在此基础上提出了称为“双排序”模型的新的创建算法,将“双排序”的互关联后继树模型同后缀数组(suffix array,也称为.PAT数组)创建方法结合了起来。该算法去掉了两次扫描文本的需要,可以在后缀数组的创建过程中有机的结合如互关联后继树的建立,很大的提升了时间效率。同时,本文进一步给出了同Difference Cover算法结合的途径,很大地提高了“双排序”创建算法的应用范围。并且在实验的基础上,给出了两种算法的不同效果、适用范围、以及参数设定的基本准则。我们发现双排序模型在其构建算法上有了很大程度的提高,在时间和空间效率上同后缀数组的创建算法基本持平,而在完成创建后,数据结构的的空间效率得到了很大的提高,并扩展了其查询的能力。
第二,本文探讨了黄页信息信息检索系统的设计、实现、发布和评测,从需求分析、系统结构设计、网站建设等方面总结了互关联后继树在向工程项目转化过程中的要点和经验。并在实际的项目的评测中提出了新的检索标准。该标准在TREC(文本检索会议)基础上进行了改进,从而让其能够适应黄页信息系统复杂的测试环境,提出了新的MAP(平均准确率)算法。由此完成了黄页信息检索系统的测试工作,这对未来的非确定环境下的信息检索评测工作起有一定的借鉴作用。