论文部分内容阅读
面对日趋激烈的商业竞争,各企业纷纷走上信息化道路,通过ERP提高企业的商业竞争力。进而,对这些海量的ERP数据进行数据挖掘,从中得到潜在的、有用的知识,以辅助商业决策。但是随着企业的不断发展壮大,原来在企业中起过很大作用的数据库管理系统的数据量成倍增加,其管理逐步由集中式向分布式发展,如何有效地对这些分布的数据库进行数据挖掘成为新的挑战。传统的数据挖掘基本上是一个本地的数据分析工具,仅能对本地数据集产生一定的理解性或概括性的知识,而在数据分布环境下,除了结点上是物理分布的,处理的是海量数据,同时还要兼顾数据的安全性以及非共享数据的隐私性。针对这些问题,以数据挖掘中的分类和预测为重点,本文提出了基于贝叶斯网络的分布式商务数据挖掘模型(DDMMBN,Distributed Data Mining Model Based on BayesianNetwork),该模型是以具有移动Agent功能的Bee-gent系统为框架,以贝叶斯网络相关性学习理论为方法,以属性多叉树为中间过程,从分布的商业数据库中训练得到综合的贝叶斯网络,利用综合的贝叶斯网络推理实现对客户的分类和消费量的预测。该模型(DDMMBN)中提出了属性多叉树这一数据结构,该属性多叉树能反应各分布的数据集的属性特征值,它可以通过移动Agent访问各分布的数据集,调用其属性多叉树构建算法而得到,然后利用属性多叉树得到贝叶斯网络。该属性多叉树能很好地解决数据分布的问题,不需要将各分布的数据汇总,大大地减轻了网络负担,节省了本地存储空间。同时,由于该属性多叉树只是概括了分布数据集的特征值,而不需要涉及每条数据记录的细节,故在一定程度上能很好地解决其分布数据的隐私性问题。本文在详细阐述了贝叶斯网络理论、分布式数据挖掘相关技术和移动Agent技术后,针对商业企业中客户的分类和消费量的预测问题,提出了该基于贝叶斯网络的分布式商务数据挖掘模型(DDMMBN)。以Bee-gent系统为基础,建立了该模型的原型系统,利用已有的商业数据,与数据汇总法和加权表决法相比较,证明了其具有较高的时间效率和分类准确率。