论文部分内容阅读
数据库营销作为一种新兴的营销手段,可以帮助企业更好的了解顾客资料,从而开展更加个性化的客户服务或者营销活动。但随着信息系统数据的增多和不同系统数据整合的过程中出现的“脏数据”的问题,严重影响了数据的质量。数据清洗的目标就在于解决各式各样的“脏数据”问题,提高数据质量从而保证数据更好的支持企业的各种分析或其他应用。 基于现有数据清洗理论,引入了域的概念,研究了针对12种域类型的验证规则、内涵信息以及域之间的关联关系,并在此基础上设计了基于域的数据清洗系统。将基于域的数据清洗系统作为对常规查重的补充和支持,设计了相应的基于域思路的数据分析报告,以及针对空值及异常数据的处理方法。同时,提出“二叉B-树”数据结构进行字符串识别,提高了数据拆分的效率。