Web数据清洗及其系统框架研究

来源 :计算机时代 | 被引量 : 0次 | 上传用户:baikubk258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据清洗是提高数据质量的有效手段.分析了从Web上抽取的数据存在的质量问题或错误,针对错误类型,给出属性错误(包括不完整数据和异常数据)和重复与相似重复记录的描述,并提出相应的清洗方法;设计了一个数据清洗系统框架,该框架由数据预处理、数据清洗引擎和质量评估三大部分组成,可以针对不同的错误类型,完成不同的清洗任务.实验表明,该框架具有通用性和可扩展性.
其他文献
针对矿用引风机叶片磨损快、寿命短、维修费用高的实际情况,从纵横两个剖面研究磨损机理,建立了横剖面的磨损公式.提出了变质量叶片.使用表明,变质量叶片使得叶轮的使用寿命
以体育领域中具有代表意义的竞技体育为研究对象,分析总结中国竞技体育中的不公平竞争行为及其产生原因,从道德修养、依法治体、利用先进的科学技术、媒体监督等层面提出具体
莱钢合金钢大方坯连铸机采用了结晶器电磁搅拌、结晶器液压振动、动态二冷配水以及动态轻压下等多项国内外先进连铸工艺以改善铸坯内部质量,提升产品品质。本文主要介绍了连
为了更好地了解流控制协议-sCTP的相关性能,利用NS-2网络仿真软件,从单路径和多路径两个方面对TCP和SCTP协议进行了比较。实验结果表明,在应对链路恶化的情况下,SCTP协议的吞吐量更
Forward是目前各油田广泛应用的勘探开发一体化测井评价商业软件,其底层平台开发工具包WellBaseSDK更是为用户进行应用软件开发提供了统一的数据格式WIS、各种接口函数类库和