论文部分内容阅读
信息技术的迅猛发展使得数据量与日俱增,大量结构化与非结构化数据散布于互联网的各个角落。在空前兴盛的数据时代,基于资源管理、存储以及运算的云平台应运而生。Hadoop作为一个开源的云平台,提供了以HDFS和MapReduce为基础的平台架构,能够利用集群性能高效地处理海量数据。同时,人们迫切地希望能从存储了海量数据的云平台中挖掘有价值信息。因此,将Hadoop平台与数据挖掘的分类技术相结合,分类工作的时间成本以及内存消耗将大大降低。综上所述,基于Hadoop的数据挖掘分类系统有着非常深远的研究意义。由于文本分类在数据挖掘分类中最为普遍和重要,因此本文以文本分类作为主要研究对象,旨在解决分类系统的分类效果与时间开销问题。首先,本文针对传统朴素贝叶斯分类器的不足,提出了一种基于属性加权的朴素贝叶斯分类器改进方法;其次,采用MapReduce计算框架与提出的属性加权改进方法,对基于Hadoop的数据挖掘分类系统进行了设计与实现;最后,从分类效果与时间开销两方面进行实验设计,验证了该分类系统在提升分类效果与降低时间开销上,都起到了一定的优化作用。本文主要做了以下工作:1.本文深入地研究与学习了文本分类各个流程的相关技术,对文本分类过程中所涉及的关键技术进行了综述。2.本文在朴素贝叶斯算法方面进行了深入地研究,针对传统朴素贝叶斯分类器的不足,结合期望交叉熵和卡方统计量的特征权重评估方法,提出了一种基于属性加权的朴素贝叶斯分类器改进方法,用于提升分类准确性。3.本文设计了一种基于Hadoop的数据挖掘分类系统,该系统包含文本预处理模块、特征选择模块、文本表示模块,以及本文提出的基于属性加权的朴素贝叶斯分类模块,并对其进行编码实现。4.通过搭建Hadoop平台的实验环境,对基于Hadoop的数据挖掘分类系统进行实验。从分类效果与时间开销两方面验证了该数据挖掘分类系统的准确性以及高效性。实验证明,本文设计的基于属性加权的朴素贝叶斯分类器在分类效果上优于传统的分类器;基于Hadoop的数据挖掘分类系统在处理大规模数据时,比单机环境下实现的分类系统具有更少的时间开销。