分布式JS解析系统的设计与构建

被引量 : 7次 | 上传用户:XUCHUNLIAN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网页的页面视图效果越来越美观,使用的页面编程技术也不仅仅局限于HTML、CSS等静态语言。以JavaScript为代表的动态脚本由于其功能强大,使界面观赏程度高等优势越来越受到开发者和用户的青睐。但是由于其编写复杂程度比传统的静态网页技术高,所以在搜索引擎、舆论分析等领域进行网页内容抓取和分析的时候,很难对JavaScript中包含的信息进行解析。所以本论文在设计并构建能够高效解析网页中JavaScript的分布式系统时,能够完成对存在于HTML文档中的JavaScript片段进行高效的提取和分布式解析的功能,并且在分布式计算机集群中合理的进行任务调度。该论文主要包括两个研究方向:首先是对网页中存在的JavaScript进行有效的提取和解析;然后结合Hadoop分布式计算技术,在深入分析现有任务调度算法、结合本系统实际情况的基础之上,设计本系统在分布式计算环境中的任务调度算法,合理的进行JavaScript解析任务调度,实现对页面中包含的JavaScript片段的高效解析。通过对JavaScript语法规则和其在网页中的存在形式的研究,设计了JavaScript的提取流程和算法,然后借鉴浏览器解析JavaScript的方法,使用JavaScript解析引擎,构造JavaScript解析环境来实现第一模块。通过对现有Map/Reduce任务调度算法的研究、分析和对比,并结合JavaScript解析任务的具体特点和分布式集群的环境,探究最适合本系统的Map/Reduce任务调度算法。对JavaScript解析任务进行合理调度,然后搭建计算机集群,对设计的分布式JavaScript解析系统进行构建。最后对分布式JS解析系统进行测试,对其应用性能和解析准确性进行验证,并且总结系统的不足,提出后续改进意见。本文实现的分布式系统能够对网页中存在的大量JavaScript进行高效、快速的解析。实验结果表明,本系统能够对网页中JavaScript片段内包含的文本文字和超链接内容进行高效、准确的提取和解析。从而,本文的研究和实现工作能够为搜索引擎、舆论分析、数据采集等领域提供更高效可靠的技术支持。
其他文献
随着氧化物薄膜沉积技术的飞速发展,利用脉冲激光沉积或分子束外延技术制备高质量的过渡金属氧化物外延异质结构得以实现。在原子尺度内调控异质界面已经导致了多种新颖的界
随着经济全球化进程的加速和信息技术的飞速发展,所有企业都面临一个充满变数的不确定环境。企业能否获得持续发展,能否在激烈的竞争中确立自己的竞争优势,主要取决于企业的
随着并购现象趋于普遍,有三分之一的企业面临商誉的处理问题,这一比重还在逐年加大。与此同时无形资源日益成为企业的重要组成部分,是企业核心竞争力的主要构成要素。如今企
住房问题,特别是中低收入群体的住房问题,是一项重要的民生问题。住房问题关系到人民的安居乐业和切身利益,也关系到社会的安定和公平,尤其是占我国城镇居民30%~40%的中低收入群
在全球经济一体化的背景下,国际金融危机对我国的实体经济与企业产生了严重的负面影响。特别是中小企业面临着市场需求减少、产品成本上升、融资困难、品牌弱势等问题,企业的
农业乃国之根本,科技是第一生产力,农业科技成果的转化是科技转化为生产力、促进农业发展的必由之路。近年来,中共中央和各级人民政府高度重视农业科技成果转化工作,国家和大多数
随着大数据时代的来临,分布式应用系统成为了发展的主流。作为提升应用性能的一种重要手段,分布式数据缓存已经成为当今分布式应用开发中不可或缺的一个环节,越来越受到企业的广
大学的社会评价是目前日益兴起的一个热门话题,尤其是大学排行榜的盛行,使得人们投注更多的目光到大学的社会评价上。然而伴随着高等教育评估的发展,大学的社会评价这一部分并未
轿车侧面碰撞有车对障碍物和车对车两种侧面碰撞形式,在交通事故中,它是导致人员重伤与死亡的主要事故形态。针对车辆侧撞试验方面的研究,我国起步较晚,国内对于汽车侧撞得研究主
上世纪80年代初完成的家庭承包制改革,以及农业资源引入市场机制的配置,使农业经营的微观激励问题得到初步解决,农业生产效率显著提高。尽管国家十分重视农业的发展,三十年间