一个增量搜集中国Web的系统模型及其实现

来源 :第三届全国搜索引擎和网上信息挖掘学术研讨会 | 被引量 : 0次 | 上传用户:syris
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对中国Web的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力.提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理.针对该模型,结合北大天网增量搜集系统的开发经验,讨论了它的性能瓶颈并给出解决方案.对增量搜集的两类目标--变化网页和新网页,探讨了相应的搜集策略.介绍了该模型的实现和性能状况.该文的工作为增量搜集系统的设计和实现提供了一个成功的模型。
其他文献
共青团不仅是党的助手,同时还是党的后备军,而团组织的地位在企业中也是不可小觑的,它的作用是能够引领青年团员全身心的为企业的发展着想,为之奉献自己的贡献,这是企业中共
1989~1999年,我们采用胫骨上端延长术治疗儿麻后遗症23例,效果满意,现报告如下.
交易银行业务的市场需求和前景rn从整体市场规模看,预计到2020年全球交易银行业务(Transaction Bank,TB)收入将达近1.6万亿美元(波士顿咨询BCG,2016).2016年全球TB收入占银行
期刊
随着互联网络和多媒体技术的发展,色情图像在网络上的传播越来越泛滥,该文旨在研究如何有效过滤这些色情图像。该文提出一种基于自适应小波不变矩的皮肤纹理检测方法,首先利用统计颜色空间模型分割出疑似皮肤区域,再利用自适应小波不变矩来描述皮肤的纹理特征,该特征具有平移和缩放不变性。最后将该方法用于色情图像的过滤,通过对752幅色情图像和5 000幅正常图像的过滤实验,结果表明该方法具有较好的准确率和检出率。
一、财务共享流程管理的必要性rn流程(Process)是指一组为客户创造价值的相关活动.流程是企业运作的基础,企业所有的业务都需要流程来驱动,它把相关的信息数据根据一定的条件
期刊
目前,我国断指再植技术及再植成活率均达到世界先进水平,但有瘀血斑的挤压撕脱离断末节断指尚被列入慎重再植范围,即使再植,成活率也很低.1996~2000年,我们对26例此类断指患者
本文认为,企业负债账面值与负债公允价值是两个不同的价值概念,简单套用审计核实后企业实际负债为评估值,在很多时候可能存在高估或错估负债价值的情况。并对资产评估中负债
坚持依法治国厘清法治思路提高治理水平狠抓措施落实强调司法公正。