基于Lucene的中英文文档全文搜索引擎

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:woshi19891
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,搜索引擎已成为网民获取网络信息的主要工具。在这种趋势下出现了各式各样的搜索引擎。网络上有一类文档包含了大量信息,这类文档包括word、powerpoint、excel等等。虽然目前存在一些专业的文档搜索引擎比如北大天网FTP文件搜索引擎,但这类搜索引擎的检索范围仅限于FTP文档,并且只能对文件名进行检索而无法对文档内容进行检索。尽管有少数的大型专业搜索引擎如baidu、google实现了对文档内容进行检索的功能,但这些搜索引擎并不是针对文档的搜索引擎,它们通过解析HTTP页面的方式来搜集文档,而不支持对FTP服务器上的文档资源的搜集,因而损失了大量的资源。此外,对于日益增长的海量网络数据,检索结果本身就是一个很大的集合,用户很难从这个大集合中有效地获取信息,因此用户需要更具体更客户化的搜索引擎。本文设计和实现的中英文文档全文搜索引擎不同于现有的搜索引擎。该文档搜索引擎对海量网络数据提供了简化性整合,可以灵活地与垂直搜索等技术相结合。该搜索引擎可以被应用到特定的领域比如对特定网站的文档资源的检索、对特定行业的文档资源的检索等等。该系统一方面弥补了现有文档搜索引擎信息量匮乏的缺陷;另一方面,系统“硬件要求低、简洁、灵活、可配置”的特点使其可以方便地应用到各种具有专门需求的全文检索领域。本文重点介绍和实现了以下一些方面:1.系统的总体设计;为提高性能和可扩展性所做的一些局部设计。2. HTTP和FTP爬虫系统。设计并实现了用于抓取特定文档(word, powerpoint, excel)的HTTP和FTP爬虫系统。详细描述了HTTP爬虫的总体架构设计、运行流程、重要组件DNS cache的设计与实现。阐述了URL去重策略的设计与实现、Polite Nice抓取处理策略的设计与实现、HTML页面解析过程的设计与实现、文档抓取过程的设计与实现。阐述了FTP爬虫系统的总体设计和性能优化方案。阐述了爬虫系统的文件去重功能的设计及实现、文档解析系统的接口设计及实现。3.基于apache POI的文档解析模块。介绍了模块总体设计、具体实现、存储优化策略。4.基于lucene的检索模块和UI模块。介绍了lucene的原理,结合web技术阐述了检索模块和UI模块的设计思路和实现方法。文章最后对系统的工作效果和性能进行了简单评测,对系统未来的工作进行了分析和展望,提出了一些优化方案。
其他文献
近年来,智能手机的软硬件都得到大大提升。不断被嵌入手机的各种传感器如加速计、麦克风、GPS等在提供丰富功能的同时,还能收集大量与用户相关的传感器数据。这些数据经过一
对诊断设备能精确地瞄准实验靶球以实现自动化控制是惯性约束核聚变(ICF)系统中公共诊断平台急需解决的问题之一。   根据ICF工程检测要求,构建了一套三维精确定位机器视觉
近年来,平台虚拟化技术成为了国内外计算机领域的研究热点。服务器合并、网络安全、数据保护、高性能计算和可信计算等方面的应用对平台虚拟化技术的性能、安全可靠性和可伸缩
在移动的环境下,用户手中持有的设备功能越来越强大。智能手机的日益普及,移动通讯企业推出的无线上网卡,使得人们随时随地都能访问网络资源。3G时代已经到来,极大的提升了数
随着个人计算机能力的不断提高,计算和网络等资源的充裕,Internet出现了回归对等网本质趋势。P2P在越来越多的领域得到了研究和应用,也衍生出了适应不同环境的各个变种。结构
随着市场经济的发展,市场竞争日趋激烈,对于加工制造业,就要求能够合理安排工序,合理利用资源,减少工期,降低生产成本。因此,车间调度问题越来越受到人们的关注。车间调度问
伴随着当代信息社会的发展,安全成为了越来越重要的话题。如何有效的在对安全要求较高或者较敏感的区域进行可靠的人物身份自动验证或者确认是非常重要的。传统的身份验证方
云计算是通过网络提供方便、廉价的计算服务,但其安全问题一直是用户最关注的。虚拟化作为云计算的支撑性技术,其中的虚拟机本身存在风险,进而危害到整个云计算系统的安全性
当前服务科学正处于发展的阶段,软件服务化的思想也已经渗入到软件产业中,在如今的服务大潮中,探索一种软件服务化的方法有一件很有必要的事情。目前,SaaS的概念已被业内广泛
以信息技术、网络技术、通讯技术为基础的电子商务的环境下,大量网上旅游服务平台出现,许多组织、机构正在研究将各个不同旅游服务提供商提供的Web服务组合在一起,从而为旅游