【摘 要】
:
传统的通用搜索引擎不能满足人们对搜索引擎越来越个性化的需求,提供某个专门领域搜索服务的垂直搜索引擎应运而生。垂直搜索引擎需要专门的聚焦网络爬虫按照其特定的要求从网
论文部分内容阅读
传统的通用搜索引擎不能满足人们对搜索引擎越来越个性化的需求,提供某个专门领域搜索服务的垂直搜索引擎应运而生。垂直搜索引擎需要专门的聚焦网络爬虫按照其特定的要求从网络中抓取数据,同时还要求聚焦网络爬虫抓取范围的选择更精确、发现新页面更及时。
本文在现有聚焦网络爬虫的理论基础上,根据新的应用趋势,结合实际需求实现了一个分布式的聚焦网络爬虫系统。该系统具有高性能易扩展的分布式架构、友好的Web配置界面并实现了快速发现新页面的机制、精准提取页面字段的功能。
该系统改进了传统的分布式聚焦网络爬虫的系统框架,将原有的文档服务器和抓取服务器合二而一,同时绕开管理服务器直接使用抓取服务器来进行URL除重。管理服务器负责系统的管理、抓取任务的分配并提供简单易用的Web配置界面,这使得普通用户也能使用该系统将网络上分散的信息聚合成格式化的数据。抓取服务器负责具体的页面抓取和处理,实现了动态扩展的URL除重机制,并能对页面字段进行精准地抽取,这使得该系统能够为垂直搜索引擎提供海量格式化的数据以提高其搜索体验。
其他文献
数据流这种数据形式广泛地存在于现实世界中。例如,传感器网络监控、气象监测数据、电话通话记录、网络通讯监测、股市实时交易数据、web用户点击数据流或者网站访问日志统计
二十一世纪是一个信息大爆炸的世纪,计算机和互联网如浪潮般走进了人们的工作、学习、生活各个领域,可以说是无处不在。图像检索技术就是在这种形势下逐渐发展起来的一个热点
随着互联网、信息技术和数据库技术的飞速发展,各大公司和企业纷纷建立了各自的IT信息集成系统,由此积累了大量异构数据,如何高效便捷的处理这些数据信息成为企业信息化进程
分类是通过训练数据集找出类别的概念描述,根据概念描述建立分类模型,从而使用该模型来分类同种数据。目前常见的分类方法有神经网络方法、贝叶斯网络、粗糙集、模糊集和支持
随着互联网的迅速发展,特别是Internet的普及,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但是随着Internet上信息量的爆炸式增
产品创新是企业持续发展的保证,概念设计是产品创新最关键的阶段,概念设计中当产品的系统或技术达到极限,应该跳出现有系统,分析现有产品最终目的是什么,设计全新的系统完成
随着Internet技术的不断发展,如何从海量的Web信息中找到用户所关心的信息成为一个关键的研究问题。高效的检索工具对于帮助用户方便地获取有用的信息具有重要意义。本文首先
准确且快速的碰撞检测对提高虚拟现实环境的沉浸感和真实感具有非常重要的意义。由于虚拟环境中存在大量的物体对象和物体几何形状的复杂性,使得碰撞检测过程常常占去大量的
时态属性,作为刻画事物的维度,与空间维度一样,是度量实体对象必不可少的参数。围绕如何在应用系统中有效的刻画和运用时态属性,学者们展开了广泛的研究。或从代数的角度,或
随着经济的高速发展,我国城市建设在改革开放后飞速发展,城市规模越来越大,城市管理的压力逐步加大,传统城市管理模式已不适应当今社会的需求,城市管理现代化、信息化的需求日益迫