论文部分内容阅读
随着数据库和计算机网络的广泛应用,加之使用先进的自动数据生成和采集工具,人们所拥有的数据量急剧增大,利用信息技术生产和搜集数据的能力也大幅度提高,如何有效地利用和处理信息成为当今世界共同关心的热点课题。由于数据库技术、人工智能和数理统计等技术的不断发展与融合,数据挖掘技术应运而生。数据挖掘是一门新兴的交叉学科,也是现代科学技术相互渗透的必然结果,基本目标就是从大量的数据中提取隐藏的、潜在的和有用的知识和信息。这一技术自20世纪末提出以来,引起了许多专家学者的广泛关注,并应用到金融业、零售业、医疗保健和政府决策等各个领域,取得了良好的社会效益和经济效益,具有广阔的开发前景和应用前景。 贝叶斯网络是概率论与图论相结合的产物,提供了不确定性环境下的知识表示、推理、学习手段,可以完成决策、诊断、预测、分类等任务,因其良好的可理解性和逻辑性成为数据挖掘的重要方法。 本文致力于贝叶斯网络的理论和算法的研究,全文研究了如下几个问题: 1.贝叶斯网络和数据挖掘的结合。贝叶斯网络起源于贝叶斯统计学,数据挖掘本质上具有很强的统计色彩,促成了二者的结合。 2.贝叶斯网络的推理。通过在网络中进行推理,可以得到任意节点间的依赖关系,从而确定数据库中节点所表示事件间的联系,同时对事件的发展进行预测。针对不同的网络,可以采用不同的推理算法,以加快推理速度,提高计算效率。联合树算法以其容易理解,适用范围广等特点成为目前应用最多的精确推理算法。 3.贝叶斯网络的学习。贝叶斯网络的学习是数据挖掘中非常重要的一个环节,是将先验知识和模型评价融入训练数据,获得数据中隐藏的拓扑结构和参数的过程。贝叶斯网络学习分为结构学习和参数学习,其中结构学习是贝叶斯网络学习核心内容。主要对三阶段结构学习算法的原理、实现过程和计算复杂度进行讨论,并利用典型数据库对算法进行验证。参数学习分为:完整数据和不完整数据学习两种,针对不同情况可以采用不同的学习算法,从数据中学习网络的条件概率表。