Ajax友好的网络爬虫设计与实现

来源 :暨南大学 | 被引量 : 0次 | 上传用户:wangji239
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以用户为核心的新一代Web应用模式——Web2.0如火如荼,Ajax技术获得了广泛应用,比如网易博客、卓越亚马逊、Google等。Ajax采用JavaScript驱动的异步请求/响应机制,而传统爬虫缺乏对Javascript语义上的理解,无法模拟触发Javascript的异步调用并解析返回的异步数据。此外在Ajax的应用中,Javascript会对DOM结构进行大量地变动,通过DOM操作动态更新页面内容,而传统网络爬虫默认页面的DOM结构是相对静态不变的。Ajax技术的应用给传统网络爬虫造成很大障碍,必然影响搜索引擎的信息采集。针对上述问题,本文通过HTTP请求,获取网页源代码信息。构建DOM树并对页面进行分析处理,去掉噪声信息。通过遍历DOM树提取其中JavaScript脚本代码和文件。构建浏览器内置对象,然后利用开源的脚本解析引擎Rhino跟踪执行这些JavaScript代码,从而实现Ajax页面内动态加载的超链接地址的获取。并进一步对解析后的页面采用XPath表达式快速定位需要抓取的内容,生成抽取规则,以XML格式存储抽取规则和数据,并使用XSLT进行转换最终以HTML页面的形式呈现。最终解决Ajax网站中URL获取以及动态内容的获取。本文实现了Ajax友好的网络爬虫系统,提出浏览器内置对象的本地构建,利用Rhino解析JavaScript脚本中的Ajax调用,获得其异步请求返回的数据,为Ajax友好的网络爬虫提供了新的解决方案。最后通过实验,证明本文研究的可行性。
其他文献
在现代知识经济时代的今天,企业组织与人力资源管理正在高速发展,也面临着多重考验。其中企业人力资源管理必须把握的重点,同时也是最大的考验,即知识型工作与知识型员工逐渐
近年来,区域经济合作发展迅速,呈现出一系列令人关注的新特点和新模式。正如1997年爆发的东亚金融危机唤醒了东亚各国的合作意识,催生了具有东亚特征的新地区主义一样,2008年
近年来,两岸四地的经贸交流与合作日趋紧密,中国内地与港澳台签订的经贸合作协议也有了实质性进展。继中国内地与港澳签订了CEPA(Closer Economic Partnership Arrangement,
本文针对某省移动公司下属地市分公司A公司试运行两年多来的运营一体化模式进行研究。论文应用定性分析与定量分析相结合的方式,以40个片区为样本,通过实地调研、座谈会、深
联邦快递公司是世界上最大的快递服务公司,日处理货物超过3百万件。其严格的质量管理体系和操作系统使全球用户享受到了高品质的服务。上世纪90年代,公司在美国本土推出了名
随着国际贸易的迅猛发展,人们已经充分认识到作为国际商事仲裁制度重要组成部分的临时措施能够避免对仲裁当事方造成不利影响,促使仲裁程序顺利推进,使仲裁裁决得到执行,最终
在全球一体化的进程中,中国经济发展日新月异,已经进入经济转型的关键时期,企业外部的政治、社会和市场环境都存在着很大的不确定性,这就需要创业者能够快速地识别环境变化带
随着我国铁路交通事业的发展,穿越城市的浅埋隧道工程越来越多,钻爆法作为铁路隧道建设的一种主要施工方法,在施工中不可避免地要产生爆破震动效应,不仅影响工程效率,还威胁
本研究基于社会资本与社会支持的理论视角,采用问卷调查和个案访谈的研究方法,以西安市东关南街102位60周岁以上的空巢老人作为研究对象,描述分析了东关南街空巢老人的生活及
本课题运用文献研究法、录像观察法、数理统计法等研究方法,从技术和战术两个维度对使用电子护具和普通护具时的两届世界大赛技战术运用情况进行对比分析,并在此基础上探析跆