论文部分内容阅读
分类是数据挖掘中一个很重要的研究课题,它的目标在于构造一个分类模型或者分类函数去判断出待分类样本是属于已知类别中的哪一类。朴素贝叶斯分类器作为当前分类算法的研究热点之一,原因就在于具有坚实的理论知识做支撑并综合先验信息和数据样本信息等。但它也同时存在着致命的弱点。当结合实际情况后发现数据集中的属性间常常无法满足类条件独立这一假设,而这种情况会在很大程度上影响分类性能。本文首先通过对几种经典的贝叶斯分类模型的介绍,并分析了他们各自的特点,为了充分利用朴素贝叶斯模型在分类中的优势,针对独立性假设这一限制提出了一些改进方法,并取得了较好的分类效果。本文主要采用了两种属性间的关联程度的度量方式,并结合新的属性分组技术将属性划分为属性组,弱化了属性间类条件独立到属性组之间的类条件独立性的假设,这使得朴素贝叶斯分类算法的实际应用范围在一定程度上得到了拓展。为了证明本文所提的算法与朴素贝叶斯分类算法相比较具有更好的分类性能,在每个算法的结尾部分都采用了数据的仿真实验对分类效果加以比较和说明。