论文部分内容阅读
贝叶斯网络提供了一种表示因果关系的方法。它结合图模型理论和统计学来表达随机变量之间的不确定性知识,并高效地执行推理任务。最近20多年来,贝叶斯网络学习一直是人工智能和机器学习领域中一个非常活跃的研究课题,并且提出了许多经典高效的算法。尽管这些方法都获得了很好的性能,但是当面对有限数据集或高维数据集时,这两类方法在学习的准确性和效率上都存在缺限。本文的主要贡献如下:1)最大相关一最小冗余贪婪贝叶斯网络学习算法结点有序情况下,改进了K2算法,使它适用于高维小采样数据集。引入最大相关一最小冗余特征选择技术,提出局部贝叶斯增量函数以控制所学贝叶斯网络结构的复杂度。实验结果表明,在小采样数据集上,该方法在准确性上优于K2算法。未知结点次序情况下,引入了基于结点次序的启发式搜索,提出一个新颖的候选父结点集合产生方法。同时,我们也引入了最大相关一最小冗余特征选择技术和局部贝叶斯增量函数,使之适用于小采样数据集。实验结果表明,在小采样数据集上,该方法在准确性上优于现有算法。2)基于集成方法的贝叶斯网络学习算法提出一类学习贝叶斯网络的高效算法。该方法把集成学习应用到贝叶斯网络学习算法中,学习到一个更加准确的贝叶斯网络。提出基于增量采样的贝叶斯网络集成学习算法。基于贝叶斯网络学习的因果马尔科夫属性,提出基于根结点的增量采样技术和相应的组件集成技术。提出基于采样分解的贝叶斯网络集成学习算法。基于贝叶斯网络学习的因果马尔科夫属性,提出基于根结点的采样分解技术和相应的组件集成技术。实验结果表明,在有限数据集上,这两类集成贝叶斯网络结构学习方法在准确性上优于现有算法。3)关联规则-贝叶斯网络集成学习算法提出基于启发式2层计数的频繁项集挖掘算法。提出一个新颖的2层频繁项集生成方法,大大减少了数据集的遍历次数。在每次数据集遍历过程中,提出启发式遍历技术,减少了数据集遍历时间。实验结果表明,在高维松散大数据集上,效率上优于Apriori算法。提出基于启发式2层计数的频繁项集—贝叶斯网络集成学习算法。该算法把频繁项集挖掘算法应用到贝叶斯网络学习的得分&搜索方法中,利用频繁项集限制贝叶斯网络结构搜索空间,提高了网络结构空间的搜索效率。实验结果表明,在高维松散大数据集上,本集成算法在效率和准确性上优于传统的贝叶斯网络学习方法。4)贝叶斯网络在通信领域的应用初探对客户流失预测分析问题进行了初步探索,初步提出一个基于贝叶斯网络的主动流失客户预测分析模型。