论文部分内容阅读
搜索引擎的出现满足了人们的检索需求,众所周知的百度、Google等搜索引擎已经深深地渗入到人们的日常生活中了。然而Internet数据量已经超出了搜索引擎所能覆盖的范围,全球互联网资源已达数以亿计,人们很难从通用搜索引擎获取自己所需的特定主题领域的信息。垂直搜索引擎的出现,解决了这一难题,实现了特定用户对特定主题信息的准确检索。本文简要介绍了课题研究背景、搜索引擎的基本工作原理以及垂直搜索引擎在国内外的发展现状,阐述了垂直搜索引擎的相关理论,给出了垂直搜索引擎的基本概念、与通用搜索引擎的区别和评价垂直搜索引擎性能的准则。并介绍了垂直搜索引擎的各组成模块及其功能,对垂直搜索引擎中所涉及的核心技术进行了深入的研究,主要有爬虫技术、网页结构化提取技术,中文分词技术和Lucene索引技术,这些技术应用于垂直搜索引擎中的信息采集模块、信息提取模块、索引模块和用户接口模块的实现。其中,信息采集模块利用爬虫技术从Internet网络上爬取数据;信息提取模块是对已下载的网页进行结构化的提取操作;索引模块将提取到的结构化信息建立索引库;用户结构模块给用户提供了一个查询界面,供用户提供查询请求和返回结果给用户。本文主要的研究工作及创新点有:通过扩展和改进功能强大的开源爬虫框架Heritrix,使其对体育用品信息能够实现定向抓取,引入APHash算法,改进队列分配策略,极大地提高了Heritrix爬虫的效率;用体育用品品牌等专业词汇扩充了JE分词工具所用到的主题词库,使其成为特色专业词库,在很大程度上提高了查询的准确率;在对垂直搜索引擎的核心技术和各功能模块的研究基础上,成功搭建了一个面向体育用品信息的垂直搜索系统原型,实现了对体育用品进行简单的查询操作。