一种针对Deep Web深层数据获取的网络爬虫设计与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:kick666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的信息时代,互联网中的信息不断快速增长,存储数据非常容易,但是想从中找到有用的信息却越来越难。通用搜索引擎的出现为这一问题提供了解决方案。网络中有一部分数据信息是存放在各网站站点数据库中的,这部分数据信息不能通过网页中的链接直接获取,而需要用户手动填写网站查询表单,提交查询命令才能访问,这些数据被称为Deep Web数据。Deep Web数据与其他网站静态页面中提供的信息相比,专业性更强,数据量更大,对用户而言,更具利用有价值。通用搜索引擎在进行网络信息爬取时,无法爬取到Deep Web数据,这对搜索引擎用户而言,能够获得的有价值的信息有限。E时代辛亥革命搜索引擎是一个为辛亥革命历史事件的研究者提供检索服务的垂直搜素引擎,网络爬虫子系统的研制就是该引擎必须解决的关键系统之一。本文在通用搜索引擎的基础上,通过对Deep Web数据结构特点进行分析,针对Deep Web数据源的检测和获取提供了一套实现方案,解决了其中2个主要问题,即:1.对Deep Web数据查询接口的节点特征进行分析,建立节点特征库。网络爬虫在获取到新的页面时,利用节点特征库比对当前网页的节点特征,寻找当前网页中包含Deep Web数据源的可能性,以此实现爬虫进行数据爬取时,自动发现Deep Web数据并将相关信息记录至文件中。2.爬虫能够读取Deep Web文件,拼装Deep Web数据源的查询请求,获取站点返回信息;通过页面相似度的计算,为查询结果页面寻找一个“同类网页”;通过对查询结果页面和其“同类网页”进行结构特征分析,从查询结果页面中提取出查询结果链接和分页链接,舍弃导航链接和广告链接等。研究和实验表明,Deep Web数据源的检测和获取模型能够比较好地发现站点页面的查询接口,较为准确地抽取Deep Web查询结果。
其他文献
作为传统的农业大国,农业在我国国民经济发展中占有重要地位.关系到国家社会的持续稳定发展.随着农业产业结构和发展方式的转变,我国农产品深加工发展态势良好.但也存在着不容忽
行政审批作为政府规范市场经济和公共秩序的必要手段,在公共管理过程中发挥着十分重要的作用。作为计划经济的产物,传统的行政审批制度已不符合我国国情,迫切需要建立符合市
静电纺丝技术是合成高分子/纳米粒子有机无机杂化功能性纳米纤维的一种简单、有效、常用的手段。目前,利用电纺丝技术制备无酶传感器的方法已经被研究者报道,在这些报道中,一般
加强中等职业学校应用文写作教学研究,具有重要的理论和现实意义。当前,由于受到教学理论、学生水平、教师力量和教材编选等多方面的限制,中等职业学校应用文写作教学不能适应学
<正> 中国电子学会第13届电子元件学术年会征文通知中国电子学会元件分会、中国电子元件行业协会、IEEE北京分会CPMT专业委员会与UFFC专业委员会联合举办的第13届电子元件学
随着冷战的终结和全球化时代的到来,国际政治的现实正在发生新的变化,最为突出的变化体现在硬实力的直接作用力受到了极大的限制。在国际社会中,主权国家再用现实主义所倡导
随着无线通信技术的发展,电磁设备越来越多,各种电磁信号交织在一起,形成了复杂的电磁环境。复杂电磁环境下,待检测信号的类型难以确定,在这种情况下如何快速准确的检测到信
营造富有地域特色、文化内涵的植物景观是现代城市绿地建设的一个关键问题。以广州兰圃、晓港公园和珠江公园3个公园为例,以植物造景为主题,在探讨公园植物景观规划与植物造