论文部分内容阅读
当今网络飞速发展,每天网页数量以几何级方式增长,搜索引擎得到了越来越广泛的应用。通用搜索引擎解决了一部分信息搜索的问题,但是随着通用搜索引擎返回页面的急剧增多,用户就很难从大量的搜索结果中找到自己满意的信息。每个用户对知识的需求是不同的,因此通用搜索引擎没有区分的把所有结果都返回给用户,给用户使用搜索引擎造成了极大的不便。作为通用搜索引擎的一种发展趋势,垂直搜索引擎应运而生。如今,行业得到了进一步的细化和分工,每个行业的知识量也与日俱增,因此专门正对某个行业来做搜索,成为了现代搜索的新方向。垂直搜索引擎,也被称为专业或者专用搜索引擎,就是专为查询某一个主题信息而产生的查询工具。垂直搜索引擎专门收录某一方面、某一行业或者某一主题的信息,在解决某些实际查询问题的时候比通用搜索引擎更有效。具体而言,垂直搜索引擎就是对网页库中的某类专门的信息进行一次整合,定向分字段提取出需要的数据,进行处理后以某种特定形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将相关的页面抽取为特定的结构化信息数据.如果说网页搜索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位.将这些数据存储到数据库,进行进一步的加工处理、去重、分类等,最后分词、索引,最终以对结构化数据的搜索的方式满足用户的信息需求.整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。本论文介绍了构建全文检索系统的Lucene,分析了它的架构和主要工作原理。还对开源爬虫Heritrix进行了深入的分析,对每个核心组件进行了详细的阐述。在前面研究的基础上,设计实现了一个搜索引擎实例,并演示了它的功能。本文详细的介绍了该实例的设计和实现,并介绍了一个基于改进的遗传算法的主题网页搜集算法以及异构web网页的提取算法等。实验表明,该系统具有一定的可行性和实用性,对构建垂直搜索引擎系统有一定的参考价值。