网站反爬取机制的研究与应用

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:jybertrand123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WEB技术的发展和应用方式的多样化,越来越多的人们开始依靠网络学习、工作和生活。Web2.0的到来,万维网成为大量信息的载体,这使得互联网中运行的爬虫日益增加。这些爬虫占用网站资源,对网站造成很大的危害。发现和防范网络爬虫,建立反爬取机制是规避爬虫对网站所带来的危害的应有做法。反爬取机制在保障网站的正常安全的提供访问服务,保护网站内容以及用户隐私信息,以及在做基于用户访问数据的数据挖掘都是有着重要的意义。本文在阐述了爬虫原理和研究分析了现有的反爬取机制后,针对爬虫的访问特征,设计了一个实时的反爬取机制,采用服务化架构(RPC)的方式,将反爬取检测和原有Web服务器分开。充分利用原有Web服务器和反爬取服务器的环境优势,减少反爬取机制对原WEB服务器的影响。在识别爬虫时提高Web请求检测的维度,增加校验逻辑的复杂程度,以此方式来提高爬虫识别的准确率。实验表明,本机制在反爬取领域和爬虫识别领域中具有较好的效果,相对于其他的反爬取机制在实时性、准确率、覆盖率、综合评价指标上均有较为明显的优势。
其他文献
α干扰素是国际公认的治疗慢性乙型肝炎的免疫调节剂.拉米夫定作为新型的核苷类抗乙肝病毒新药,近年来已广泛应用于临床,且疗效可靠.不良反应少。该两种药物已经成为治疗各种急慢
公共设施的开发可以为天津西站副中心的发展提供物质基础和先行资本,并促进副中心和整个天津市的繁荣。本文主要探讨和构建系统完整的西站副中心公共设施开发机制,主要包括三个
目的探讨头痛宁胶囊治疗紧张性头痛的可能作用机制。方法将80只SD大鼠随机分为模型组、对照组及头痛宁高、中、低剂量组,每组16只。采用颈部肌肉注射三磷酸腺苷诱发紧张性头
随着新课程改革的深入,初高中教材发生了很大的变化,教师的教学方法,学生的学习方法,都要相应得发生很大的变化,本文着重谈了如何做好教材内容的衔接,教学方法的衔接,学习方法的衔接
目的:以ICU清醒患者为研究对象,探讨前瞻性护理对于改善其睡眠质量所产生的效果。方法:选取2017年6月至2018年6月福建医科大学附属泉州第一医院收治的ICU清醒患者114例,随机
案情简述:2011年7月11日,被告人杨某(女)与同案另一被告人谢某(女)为了向刘某索要其卖淫所得,将刘某年仅4岁的儿子,从西安带到铜川焦平。二被告人于7月12日下午18时在铜川被警方抓获。后检察院以被告人涉嫌非法拘禁罪向法院提起公诉。  根据公安机关的讯问笔录及律师会见时杨某的陈述得知:杨某1993年8月1日出生,从小父母离异,杨某便与其祖母一起生活,十二岁时祖母去世,她只能孤身一人开始打工,以
企业文化建设是企业生存和发展的重要战略资源和宝贵的物质及精神财富,是提高企业整体素质和核心竞争力的重要内容,是构建和谐企业的关键因素。谁掌握了先进的企业文化,谁就能掌