基于增量反馈和自适应机制的主题爬虫系统的设计与实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:cgq365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网信息的快速几何增长,如何及时准确地从互联网上获取有用信息显得十分重要。主题爬虫是一种基于主题的信息采集系统,可以从互联网上采集到与主题相关的有用信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。 本论文进行了基于主题的爬虫系统的设计与实现,其主要的研究工作和特点包括: ① 研究了主题爬虫系统的基本理论和基本结构,深入分析和探讨了与主题爬虫相关的技术,并设计和初步实现了一个基于增量反馈和自适应机制的主题爬虫系统——HJSpider。 ② 在页面与主题相关性判定中,引入了文本分类的思想,应用了在自然语言处理中比较成熟的基于向量空间模型的主题相似度计算方法。 ③ 在URL与主题的相关性判定中,综合运用了网页文本内容和Web结构图的启发策略,并在经典的HITS算法基础上提出了引入增量反馈和自适应机制的新的算法。 ④ 总结了主题页面在Web上的分布规律,给出了主题选择的方法以及对主题页面中基于HTML语法的分析方法。
其他文献
计算机技术和无线通讯技术的发展和结合使得一种全新的计算模式--移动计算横空出世、应运而生。它是无线通信、网络技术与移动计算设备相结合的产物,是一种更加灵活、更加复
协同虚拟环境集成了虚拟现实、网络、计算机支持协同工作等多种计算机技术,为用户提供极具真实感的共享虚拟空间,使人们能在虚拟空间中更加自然、协调地与他人进行交流和协作
机动车数量的快速增长导致了城市交通需求的迅速增加,而城市道路建设却远远赶不上交通需求的增长。使得城市交通出现了许多问题。而我们在认识和处理城市交通问题时,往往偏重
随着网络技术的不断发展与完善,企业的信息化建设得到空前的快速发展,企业迫切地需要一种高效且统一的方法用于整合目前已有的各种异构数据,业务系统和信息系统,企业信息门户
SSL VPN技术降低了企业远程存取的费用,它通过基于WEB应用的安全加密通讯SSL协议,指定了在应用层协议和TCP/IP协议之间进行数据交换,为TCP/IP连接提供数据加密、服务器认证以
本文对基于内容的垃圾邮件过滤,特别是简单贝叶斯过滤方法做一些实际应用方面的研究工作。 首先讨论了简单贝叶斯的垃圾邮件过滤,在PUl语料上实现了简单贝叶斯算法,并得出了
Web Services(Web服务)是基于网络的、分布式模块化组件,是建立可互操作的分布式应用程序的新平台。Web服务作为新一代分布式技术,一经推出,便以它的松散耦合性、跨平台及语
三维物体识别是计算机视觉领域中的一个重要分支,也是长期以来人们争相研究的热点。该热点研究与生活中许多“智能”方面的研究,例如智能机器人、智能视频监控系统等密切相关,具
基于WebGIS的应用是当前的计算机应用热点,但其查询能力不能满足用户灵活查询的需要,不能实现更加复杂的查询,如语义查询、基于推理的查询。本体具有良好的概念层次结构和对
MPEG-4标准是最有影响的多媒体数据编码国际标准之一,其具有高压缩比、可扩展性、可交互性等诸多的优点,已经逐渐成为现代视频编码领域的主流标准。多媒体应用的迅速扩充使基于