增量爬取技术的策略框架设计

被引量 : 0次 | 上传用户:yaojunsyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
增量爬取是搜索引擎保持抓取数据新鲜度的重要技术,其实现思路分为朴素同步策略与主动同步策略两种.这两种思路目前在实现上存在着各自的不足,重要原因是其实现框架考量方面的不足.因此对增量爬取过程进行深入分析,界定出增量爬取所需要解决的核心问题;通过泛化解决核心问题的具体方法,定义出实现增量爬取技术的策略框架.基于该框架,可在完整回应核心问题的同时,采用灵活实现策略的具体方法,以保证增量爬取实现方案取得复杂度、性能的平衡.
其他文献
网站规划与开发技术系列本系列教材落实《教育部高等学校高职高专网站规划与开发技术专业教学基本要求》,优化网站规划与开发技术专业核心课程体系,邀请行业、企业和院校专家
研究背景和目的目前,肺癌是全球肿瘤患者死亡的主要原因,其5年生存率仅为15%。探讨肺癌发病机制,寻找有效治疗靶分子成为研究肺癌的一个重要方向。现代基因学说认为肿瘤发生、发
通过查阅文献总结近20年来对辛夷、苍耳子药对的研究进展,包括药理作用和临床应用两个方面。苍耳子、辛夷合用可以减低苍耳子的毒性并且抗炎作用增强;苍耳子、辛夷合用在临床
5月3日是国医大师裘沛然先生仙逝1周年的日子。裘老不仅在治学之道和行医之道上令人敬佩, 在学术造诣上也独树一帜,成为中医名家。$$  医病先医心$$    近代医学研究发现
报纸