主题爬虫搜索Web页面策略的研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:xuehaoyou123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文通过制定框架,并以一些性能指标为依据来评价主题爬虫算法,并结合分析研究以及开发之间的偏差可以得到它的最优性能。本文分析了各种不同类型的爬虫算法,并讨论他们的性能表现。本文中提出了一种基于分层马尔科夫模型来区别网站和网页文本之间的传输方法。基于这一模型提出了两种不同的方法计算网站排名,一个是集中式的,一个是分散式的。这两种方法都根据Web图来得到网站排名。这两种方法作用是相同的,但是改进的算法需要为搜索引擎的建立端到端的架构,这一架构为基于链接的排名计算提供了理论基础,并使计算分散性的网络规模图成为可行。此外,网站排名可以在本地或者整个网络中进行计算。通过修改Lucene和Heritrix开源组件建立主题搜索引擎,实证结果表明,使用这个模型产生的排名与PageRank产生的排名相比性能是相近甚至更优的。本文还提出了一种文本分类方法,通过分析网页标题,对抓取的网页内容主题进行分类,这一方法可以降低原本计算复杂的文本分类方法的工作强度。实验表明,使用这一分类算法,可以有效地提高计算效率。
其他文献
随着计算机技术的不断发展,软件的规模越来越大,软件测试的作用越来越重要。对于测试数据自动化生成方法,目前虽然有一些方法被提出并使用,但由于其局限性,在实际中还没有完
人脸表情识别是一个涉及到模式识别、图像处理、人工智能等多学科的综合课题。所谓人脸表情识别是让计算机对人脸的表情信息进行特征提取分析,结合人类所具有的表情信息方面
近几年计算机网络发展呈现出从集中模式向分散自治模式发展的趋势,转变为可公共访问的,面向大量动态用户的开放网络。针对开放网络中传统安全技术难以解决的用户行为约束问题,学
BGP作为互联网的基础设施,提供了自治系统间的通信机制,在互联网运行中起着重要的作用。配置错误、设备故障、网络攻击等问题都能对BGP路由系统产生重大影响,进而危害整个互联网
无线传感器网络(Wireless Sensor Network,WSN)是由大量部署在监测区域内的具有数据采集、信息处理、无线通信等功能的微型传感器节点形成的自组织网络系统,是一种全新的信息获取
视景仿真是虚拟现实技术在实际应中的热门研究课题之一,其中包括对火焰、云雾、雨雪、沙尘、浪花等动态自然景物和现象的模拟与绘制,在气象预报、航空航天、装潢广告等领域有
人脸识别技术因其具有重要的科学意义和实用价值,在近几年得到了研究者的高度重视,成为当前模式识别和人工智能领域的一个研究热点。人脸识别主要分为人脸检测、特征提取和模
随着计算机技术和网络技术的飞速发展,计算机网络在人类社会各领域发挥着越来越重要的作用。由于自身存在的漏洞,计算机网络在给人们的生产生活带来便利的同时,也给网络攻击
现在的Web(万维网)已经成为传统Web信息与语义网(Semantic Web)信息共存和交融的信息空间。近年来,这两种类型的信息都得到了爆炸式的增长。如何从这个海量的、异质的信息空间中快
在图像分析和处理中,人们往往只对图像中的某些部分感兴趣,这些部分通常称为目标或前景,一般对应于图像中具有特定性质的区域。图像分割就是将一幅图像划分成若干个互不相交