论文部分内容阅读
随着信息技术的飞速发展,Internet已经发展成为当今世界最大的信息库,并且成为全球范围内传播信息和获取信息的最主要途径之一。Internet上出现越来越多的信息,同时也出现了越来越多的搜索引擎。怎样通过这些搜索引擎找到自己想要的信息仍然不是一件易事,而想要搜索到高质量的信息就更困难了。元搜索引擎的出现解决了一定程度上的问题。
元搜索引擎是一种建立在独立搜索引擎之上的搜索引擎。用户只需要递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将搜索查询结果集中起来以整体统一的格式呈现到用户面前。在这里我们选择Java+XML作为我们系统的技术平台。Java提供了一个跨平台的方案,可支持分布式处理环境。Java语言成为了结合XML(eXtensible MarkUD LangUage)的最佳选择。XML以一种开放的自我描述方式定义了数据结构,在描述数据内容的同时能突出对结构的描述。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。在提取单独搜索引擎的结果方面,我们没有使用java自带的包,而是使用了功能更加强大的HTTP协议的客户端编程工具包HttpClient,在系统开发过程中也使用了Ajax技术,这两种技术的使用使开发的系统更加稳定,功能更完善。在确定权威页面的工作上,分别提到PageRank和HTTS两种算法,并对两种算法做了分析和比较,根据本系统的特点选择了使用HITS算法。
本文介绍了搜索引擎和元搜索引擎的发展历史,讨论了元搜索引擎的基本工作原理并对元搜索引擎进行了分类,比较了元搜索引擎与独立搜索引擎相比的优点,讨论了元搜索引擎的几个关键技术,并分析了元搜索引擎面临的问题和将来的发展趋势。作者提出了一个元搜索引擎模型,首先讨论了元搜索引擎的基本体系结构以及设计时应考虑的问题,接下来较详细地介绍了元搜索引擎系统的体系结构、系统整体上作流程以及各个功能模块描述。最后,将系统开发过程中比较重要的实现细节及代码作了详细分析。