论文部分内容阅读
企业信息化建设过程中,由于事务处理应用的分散,“蜘蛛网”问题以及WEB技术急剧发展所带来的大量半/非结构数据,导致企业在发展过程中积累了大量以不同方式存储的业务数据,并且这些数据所基于的数据库管理系统也大不相同:从简单的文件数据库到复杂的网络数据库,它们共同构成了企业的异构数据源。综合利用这些信息能帮助企业更好地预测和把握未来。但是这种异构的、分散的数据却不利于发现有价值的信息。因此,研究异构数据源中的决策分析已经成为必然。
本文在综述异构数据源中数据分析系统的发展及目前研究现状的基础上,提出了先将异构数据进行集成,在集成基础上运用关联挖掘技术进行数据分析的方法,以实现一个异构数据源下的关联挖掘系统。
论文首先给出了系统的整体框架设计,以及主要的功能模块描述:接着介绍了系统中数据集成平台的实现;然后阐述系统的数据分析部分,其中主要研究与实现了OLAP中的关联挖掘算法,同时设计并实现了在XML数据上进行的关联挖掘算法;最后,在江苏长江电气集团的电子商务网站系统上,利用我们设计的算法实现了一个实用的决策分析系统。
论文的创新之处在于:
1.采用两步集成方案解决异构系统的数据整合问题。以XML数据格式完成主要的数据交互,实现数据的底层集成,将收集到的数据进行分流处理:对于以数据为中心的XML文档运用数据仓库技术进行高层集成,建立多维数据集,用于分析和挖掘;对于以文档为中心的XML数据则直接以XML格式保存,用于挖掘。采用两步集成方法不仅符合组件化的设计思想,同时,专门设立的XML数据交换平台可以充当“监视器”的作用,变“被动”分析为“主动”分析。
2.对适用于事务数据库的关联挖掘算法进行修改,实现了OLAP中的关联挖掘。利用数据仓库的维度建模和OLAP的多维分析,达到了一种多角度、多层次的“勘探式”的关联分析,同时实现了基于一定事实约束的关联规则挖掘算法。
3.通过详细分析XML的半结构化特点,我们采用半结构模型来表示XML数据,开发并实现了一个基于半结构模型的挖掘算法,利用此算法来弥补XML数据向关系表转换所带来的缺陷。