论文部分内容阅读
搜索引擎(Search Engine)是一个对互联网上的信息资源进行搜集整理,然后供用户查询的系统。它包括信息搜集、中文分词、索引和检索四个部分。但是,面对大多数校园网是内网的情况,大型通用搜索引擎往往处理不到。并且校园网的信息量与所有网络的信息量比较起来非常小,硬件投入和维护量也远远低于大型通用搜索引擎。
因此,本文针对在校园网中进行信息快速搜索的问题,对搜索引擎技术进行了分析和研究,重点研究了索引技术。
文章首先分析了校园网搜索引擎研究的背景和意义,介绍了本文的结构。作为本文的主要内容一索引技术,在第三章得到详细的描述。其中包括:索引的作用和实现形式,索引的结构,索引性能的优化,索引的更新策略。在索引结构这一部分,本文提出了双索引机制以及词语过滤机制。除此以外,还介绍了热点查询技术,即搜索引擎向用户提供近期热点的话题,供用户了解网内的重点信息。同时本文描述了搜索引擎索引的详细设计,显示了运行结果并对结果进行了分析。最后,文章总结了作者在索引子系统研究过程中的主要工作和收获,以及研究中的不足之处,并提出了几项未来需要继续进行的工作。