聚焦爬虫技术研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:Manjay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网信息的爆炸式增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需要的信息需要耗费大量的时间,造成了“信息过载,知识匮乏”的问题。为了解决这个问题,在Web信息检索领域提出了面向主题的聚焦爬虫技术。聚焦爬虫根据用户定义的目标主题,智能化的从Web上收集主题相关的网页集合,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户的信息检索需求。它的理论和技术基础主要包括机器学习、信息检索、概率统计理论和Web新技术。在很多应用领域,如基于Web的行业分析、自动构建专题数字图书馆等,主题驱动的聚焦爬虫系统都富有应用前景。首先研究了搜索引擎和爬虫的技术原理,工作流程以及典型的聚焦爬虫体系结构,然后重点分析了聚焦爬虫的主题定义,网页的链接分析算法和内容分析算法,主题爬行策略,以及存在的主要问题。根据HITS算法善于发现主题社区,但是容易发生主题漂移;最佳优先算法由于忽视超链接信息容易陷入局部最佳子空间的问题,提出了新的主题综合爬行策略。该策略综合利用超链接价值和内容主题相关性价值计算网页的综合价值并排序。通过利用主题页面分布特性,采用HITS算法计算网页的超链接价值,发现并抓取主题社区及主题相关网页,并通过基于向量空间模型的网页主题相关度判定算法精确地量化了网页与主题的相关程度,避免爬行过程中容易出现的主题漂移问题,提高了爬虫系统的收获率。针对聚焦爬虫对目标主题的定义,采用文本分类方法建立主题特征词库,并提取主题特征用于计算网页的主题相关度。最后设计了基于综合爬行策略的聚焦爬虫的系统原型,改进了现有的聚焦爬虫的体系结构,该系统实现了主题Web资源的智能化收集。通过实验测试得到爬虫系统的收获率,验证了综合爬行策略的有效性。
其他文献
在对目标进行识别时,通常目标相对摄像机系统会因为方位的变化,产生投影畸变,这将给正确的识别带来困难。对于人脸图像的识别同样存在这样的问题,严重的投影畸变可能会导致脸部特
车牌识别广泛用于电子收费、出入控制、交通监控等重要场合。车牌定位作为车牌识别中的重要环节,对系统识别精度有重要的影响。目前的车牌定位方法主要是针对所监视的区域只
海量教育考试数据资源的数据挖掘与分析研究工作,对于充分发掘教育考试数据的潜在价值,更加科学地进行教育管理及决策具有非常重要的意义。   论文以北京教育考试数据资源系
学位
在“数据爆炸,知识贫乏”的网络时代,人们希望能够对数据进行更高层次的分析,以便更好的利用这些数据。于是,数据挖掘技术应运而生,并显示出强大的生命力。如今,数据挖掘技术正在不
信息技术的飞速发展,导致了工业领域的深刻变革,并逐步形成了工作在工业现场的分布式网络化控制系统。以太网作为办公环境下使用最广泛的通信方式,在工业界也越来越受到关注,
粗糙集理论是一种处理不精确、不确定和不完备信息的数据分析方法,以其为理论基础的数据分析与处理技术得到越来越广泛的应用。决策信息系统分解作为解决大型决策表数据海量
语义物联网是语义网与物联网的结合,主要目的是利用语义网的语义标注技术解决物联网中的资源异构问题,从而实现资源的高效利用。传感器网络是物联网的基础设施,是应用程序获
随着无线网络的发展,近年来无线Mesh网络也蓬勃发展起来。做为一种新型无线通讯网络,无线Mesh网络有着自组性、自愈性、频谱效率高、覆盖范围大、可扩展性能强、可靠性强等特点
本文就基于文本的信息隐藏技术做了相关的研究。 本文首先介绍了信息隐藏技术的研究现状及应用领域,论述了信息隐藏技术的定义、通用模型、基本要素等方面,并对信息隐藏技术
遗传算法是模拟生物界的进化过程而产生的一种现代人工智能算法,它具有天然的并行性,在求解复杂、大规模、非线性、不可微的优化问题中具有较高的性能。当今单核计算机现在已