论文部分内容阅读
身处互联网时代,数据是社会各行业的自画像和原油。分类算法是从海量数据中快速挖掘核心价值的有效手段。分类算法的研究主要关注两点:一是分类算法自身的性能优化;二是分类算法结合大数据处理平台的可扩展性研究。朴素贝叶斯分类(NB)算法由于其较强的条件独立性假设而褒贬不一,但是树增强朴素贝叶斯算法(TAN)的分类准确率通常优于朴素贝叶斯,同时保持了精简的网络结构,是一种简单高效的贝叶斯网络分类器。本文基于树增强朴素贝叶斯算法的结构特点,对树增强朴素贝叶斯算法的网络结构学习进行研究;同时也给出了树增强朴素贝叶斯算法在Spark平台上的并行化设计方案。(1)传统树增强朴素贝叶斯算法仅仅在属性变量集合上初始化网络结构,没有在初始阶段考虑到各个属性与类别的相关性差异,降低了分类准确率。通过对贝叶斯网络结构学习方法进行分析,提出一种基于改进的BIC评分函数构建SETAN分类器的学习方法。实验结果表明,该方法有效扩展了 TAN结构,同时也剔除了冗余属性,学习到的SETAN模型具有与TAN模型相同的时间复杂度,在多个离散数据集上的平均分类准确率相对于NB、TAN模型提升了 3.5%%%和5.7%%%。(2)对基于Spark平台的SETAN模型的构建过程进行研究。根据SETAN模型的特点,提出了基于Spark平台的SETAN模型并行化构建方案,以及相应的资源优化方案。实验结果表明,并行化的SETAN具有良好的数据伸缩率和可扩展性,能有效处理大规模数据。