基于分布式的垂直搜索引擎的研究与实现

来源 :中国航天第二研究院航天科工集团第二研究院 | 被引量 : 4次 | 上传用户：fly383910564

【摘要】

：

在全球互联网资源急剧膨胀的情况下,搜索引擎技术为人们查找所需资料提供了一个良好的接口。然而,面对通用搜索引擎的信息量大、查询不准确、深度不够等问题,垂直搜索引擎应

【作者】

：

赵志军

【机构】

：

航天科工集团第二研究院

【出处】

：

中国航天第二研究院航天科工集团第二研究院

【发表日期】

：

2011年01期

【关键词】

：

垂直搜索引擎分布式网页采集信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在全球互联网资源急剧膨胀的情况下,搜索引擎技术为人们查找所需资料提供了一个良好的接口。然而,面对通用搜索引擎的信息量大、查询不准确、深度不够等问题,垂直搜索引擎应运而生,它是一种新的搜索引擎服务模式,其特点就是“专、精、深”,只针对特定主题范围内的信息进行检索,检索速度快、信息集中、信息可利用率高。同时,面对海量数据,分布式技术是一个较好的切入点,虽然增加了系统的开销和设计的复杂性,但是可以大幅度提高信息采集和检索的效率,其研究具有巨大的商业价值和广阔的应用前景。本论文对当前搜索引擎的相关技术进行了研究,并结合垂直搜索引擎和分布式的相关技术设计出一种分布式垂直搜索引擎的系统结构,它由网页采集、信息检索及后台管理系统等组成,用于实现网页的抓取、检索以及提供以推荐、导出、二次开发接口为交互形式的信息整合功能,系统功能强大、易用、稳定、人性化。网页采集即网络爬虫WebSpider,它是系统数据的主要来源,并且是一个独立性相对较高的业务产品模块,它的性能直接影响了采集信息的数量与质量。采集底层采用开源项目Nutch作为支撑,实现了一个基于RMI技术的分布式垂直搜索爬虫,它利用动态脚本JavaScript分析技术和XPath技术对特定的元数据信息进行抽取,也可以通过定制编程解析器来抽取元数据,最终将处理完的信息存储到数据库。索引和检索搭建在现阶段比较流行的开源项目Lucene上,分布式采用了Hadoop中调度节点和任务节点的思想,它们之间通过RPC方式进行通信,调度节点会定时通过心跳检查判断分布式系统中可用任务节点。排序算法采用了改进的Lucene积分排序算法,数据去重使用了纯Java开发的轻量级HSQLDB嵌入式数据库,最后设计了功能丰富、样式美观的信息检索前台端展示界面。

其他文献

基于PTZ摄像机的目标跟踪算法研究与实现

运动目标的跟踪是计算机视觉、模式识别以及人工智能等学科的一个重要研究内容，广泛应用于安防监控系统中。由于目标运动的多样性和周围环境的复杂性，包括遮挡、目标变形、光照

学位

目标跟踪图像识别模板匹配图像处理

基于B\\S应用的通用权限管理系统的研建

权限管理模块是web应用系统中重复开发率较高的模块之一。基于B/S的通用权限管理系统的研建将开发人员从重复的开发中解脱出来,使其更专注于业务需求的实现。本文首先对RBAC

学位

权限管理RBAC访问控制过滤器拦截器

基于U-AHC的不确定co-location模式挖掘研究

不确定数据在一些重要应用领域中是固有存在的,如传感器网络和移动物体追踪。随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入。基于不确定数据进行数据

学位

空间数据挖掘不确定数据空间co-location模式凝聚层次聚类算法概率密度

基于Web Services的煤炭销售票管理系统的研究

随着山西煤矿整合政策的出台,政府强制控制煤炭产量。过去人工方式控制煤矿产量时,由于操作速度慢,容易出错并且效率低下,导致无法准确计量煤炭的实际产量。随着计算机技术和

学位

Web ServicesWSDLSOAPUDDI序列化异步调用

基于CMM的软件测试过程模型的研究

软件测试是对软件需求分析、概要设计、详细设计格说明书与编码进行审查,对软件系统进行检测的系统化过程。软件过程模型是对软件测试过程细节的抽象。在长期的研究与实践中,

学位

软件测试软件测试过程模型CMM

基于分布式的垂直搜索引擎的研究与实现

其他学术论文