【摘 要】
:
互联网自诞生以来得到了迅猛的发展,Web信息更是呈现出指数形式地增长。传统的单机多线程主题爬虫已经不适合用来完成海量信息的抓取工作。正是在这样的背景下,云计算的出现
论文部分内容阅读
互联网自诞生以来得到了迅猛的发展,Web信息更是呈现出指数形式地增长。传统的单机多线程主题爬虫已经不适合用来完成海量信息的抓取工作。正是在这样的背景下,云计算的出现为解决大数据问题提供了一个良好的解决方案,其中Apache旗下的顶级项目Hadoop分布式平台获得了业界的广泛关注。本文在分析研究主题爬虫框架的基础上,着重介绍并分析了主题爬虫的主题模块、相关度判别模块、页面下载模块等关键模块。接着,对主题特征选择问题进行了实验,目的在于构建一个能够表征主题的特征向量。在主题爬虫爬行策略部分,在分析了基于内容与链接的爬行策略各自不足之处之后,提出了一个基于Shark-Search算法与PageRank算法的组合算法。本文的最后,先分析了开源爬虫Nutch的架构及工作流程,然后在Nutch相关模块上加入主题判别模块,对相关的模块进行了测试,最后设计并实现了一个面向IT领域的分布式主题爬虫。实验结果表明本文提出的主题爬虫组合算法是有效的,设计方案具有一定的可行性。
其他文献
随着通信技术的发展,移动无线网络在当前获得了长足的发展,诸如蓝牙,802.11(Wi-Fi)等技术正逐步得到了越来越广泛的应用。无线网络技术正逐步成长为信息获取的一个很重要的部分
近年来,随着网络规模的飞速增长,网络上的数据流也越来越多。但是,传统的路由算法不能充分利用现有的网络资源,从而造成了网络拥塞,这已成为制约网络发展和应用的瓶颈。因此,
聚类分析中簇确认方法可评估所得簇的“质量”,使所得聚类结果能更好地体现数据集的原始结构。IB方法通过给定源变量X和它的相关变量Y的联合概率分布p(x,y),来寻求X的压缩变
近几年来,随着人们生活水平的普遍提高,家用汽车已经成为众多家庭的主要出行工具。伴随着生活品质的上升,人们的安全意识也普遍提高,在家用汽车的选择上偏向于质量更好,安全
随着数字多媒体技术与计算机网络的迅猛发展,信息安全问题已经成为了当今社会的一个重点研究问题,密写技术应用到了社会及日常生活中的多个领域。密写技术研究的成果在社会及
随着计算机技术的飞速发展,软件系统越来越复杂,从而导致了“软件危机”。解决软件危机的最佳途径之一是复用技术。基于组件的软件开发是当前复用技术研究的热点,其中组件可
XML己成为Web上表示和交换数据的标准格式。随着XML技术的不断发展和完善,涌现出大量XML文档。如何有效管理大规模XML数据,如何对XML数据进行高效的查询,已成为当前数据库技
随着软件规模和复杂性的日益增长,人们对软件的复杂性进行分析和度量的要求越来越高,因此对软件复杂性分析技术的研究已成为软件工程学中的一个热点。迄今为止,国内对软件复杂性
当前,存储系统网络化、对象化的趋势越来越明显,这对网络存储安全技术提出了极大的挑战。网络存储安全涉及网络安全与存储安全两方面,其核心是为了保证数据信息的逻辑安全。