【摘 要】
:
随着互联网的迅猛发展,越来越多的信息在网上发布,这给人们查询信息带来了巨大便利的同时,也使得人们面对大量的信息不知所措,寻找一条自己想要的信息变得异常困难。因此,人
论文部分内容阅读
随着互联网的迅猛发展,越来越多的信息在网上发布,这给人们查询信息带来了巨大便利的同时,也使得人们面对大量的信息不知所措,寻找一条自己想要的信息变得异常困难。因此,人们开发了搜索引擎,并试图通过它实现用户信息的快速准确查询。目前的搜索引擎能够检索的仅仅是World Wide Web提供的小部分称为Surface Web的信息。大量的Deep Web信息(估计容量是Surface Web的500倍)对这些搜索引擎是不可见的。特别是近年来,随着Web2.0的兴起,AJAX技术在Web中获得大量使用。AJAX采用异步通信机制,从服务器获取数据后动态修改Web页面内容,导致传统网络爬虫采集的内容远少于页面呈现的内容。因此,需要开发一个基于AJAX技术的Deep Web爬虫来实现此类信息的搜索。本文通过对传统网络爬虫实现方法和技术的研究,提出了一个基于AJAX技术的Deep Web爬虫的基本结构框架,并对框架中各模块的实现方法进行了研究。此框架由URL Server模块、网页采集模块、HTML解析模块、JavaScript解析器、页面生成模块五部分组成。和传统网络爬虫不同的是,基于AJAX技术的Deep Web爬虫不仅分析页面中的超链接和页面内容,还要分析JavaScript文件和代码,这些JavaScript文件和代码需要在HTML解析模块中抓取,并在JavaScript解析器中解释执行,其解释执行的结果是生成新的页面的基础。基于AJAX技术的Deep Web爬虫与传统网络爬虫的不同主要体现在HTML解析模块和JavaScript解析器中,本文对这两个模块的实现方法和技术进行了重点分析和研究,并提出了相应的实现方法和技术。本文对基于AJAX技术的Deep Web爬虫的实现方法的研究,对提高搜索引擎覆盖率和准确率有着非常重要的应用意义。
其他文献
旅游资源是旅游事业发展中最重要的生命线之一,它和其它一些资源一样属于难以再生或不可再生资源,对它的开发、利用和保护等问题,关系到一个国家、地区的经济发展和生态平衡
本文采用不同能源培养的中温菌-氧化亚铁硫杆菌(A.ferrooxidans菌)和中等嗜热菌-喜温硫杆菌(A.caldus菌),通过吸附量、红外测试、Zeta电位、接触角测定及原子力显微镜表面表征,考
Ajax的全称是Asynchronous JavaScript and XML,即异步JavaScript和XML。Ajax不是指一种单一的技术,而是有机地利用了XHTML、DOM、CSS、XML、XLST、JSON和JavaScript等一系列
进入21世纪以来,我国城乡居民生活水平不断提高,但人与自然的关系却变得日益紧张,环境污染严重。在工业废水和城市生活污水等有固定排污口的点源污染得到高度重视和有效治理
近年来果农重视到施肥对增产的意义,施肥量有逐年增加的趋势,但对科学平衡施肥的缺乏认识和缺少技术,难以产生好的施肥效果,长期过量地施用化学肥料和无机复合肥,造成土壤退
庾信是我国南北朝文学之集大成者。他生于一个政权更迭频繁的大时代中,在“五十年中,江表无事”的南梁度过了悠游、恣意的前半生,却在北朝走完了他哀伤、羞愧的后半生。庾信
公路交通与人们的生产生活息息相关,随着社会经济的发展以及人们生活水平的不断提高,交通运输面临的压力也越来越大,交通堵塞、交通事故和交通引起的环境污染问题也日益严重
在人类发展史上,影像艺术是伴随人类的脚印一步步走来的六百万年前,非洲草原出现了原始人的足迹。随着人类活动的演进,原始艺术诞生了。但是由于生产力的限制,几百万年以来,
21世纪,人类将迈向一个以高科技为特征的知识经济时代。作为新世纪的时代特征,数字化、网络化和信息化加速了这个世纪变革的步伐。随着近年来经济的快速发展,我国中小企业已
随着钢铁企业烧结工艺对于混匀矿质量要求不断提高,以前的人工估计计算已经不能满足要求,如何将成分波动控制在最小范围,同时降低总体原料成本这一问题已经提出。目前已经存