基于Hadoop的数据挖掘分类系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:feya520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的迅猛发展使得数据量与日俱增,大量结构化与非结构化数据散布于互联网的各个角落。在空前兴盛的数据时代,基于资源管理、存储以及运算的云平台应运而生。Hadoop作为一个开源的云平台,提供了以HDFS和MapReduce为基础的平台架构,能够利用集群性能高效地处理海量数据。同时,人们迫切地希望能从存储了海量数据的云平台中挖掘有价值信息。因此,将Hadoop平台与数据挖掘的分类技术相结合,分类工作的时间成本以及内存消耗将大大降低。综上所述,基于Hadoop的数据挖掘分类系统有着非常深远的研究意义。由于文本分类在数据挖掘分类中最为普遍和重要,因此本文以文本分类作为主要研究对象,旨在解决分类系统的分类效果与时间开销问题。首先,本文针对传统朴素贝叶斯分类器的不足,提出了一种基于属性加权的朴素贝叶斯分类器改进方法;其次,采用MapReduce计算框架与提出的属性加权改进方法,对基于Hadoop的数据挖掘分类系统进行了设计与实现;最后,从分类效果与时间开销两方面进行实验设计,验证了该分类系统在提升分类效果与降低时间开销上,都起到了一定的优化作用。本文主要做了以下工作:1.本文深入地研究与学习了文本分类各个流程的相关技术,对文本分类过程中所涉及的关键技术进行了综述。2.本文在朴素贝叶斯算法方面进行了深入地研究,针对传统朴素贝叶斯分类器的不足,结合期望交叉熵和卡方统计量的特征权重评估方法,提出了一种基于属性加权的朴素贝叶斯分类器改进方法,用于提升分类准确性。3.本文设计了一种基于Hadoop的数据挖掘分类系统,该系统包含文本预处理模块、特征选择模块、文本表示模块,以及本文提出的基于属性加权的朴素贝叶斯分类模块,并对其进行编码实现。4.通过搭建Hadoop平台的实验环境,对基于Hadoop的数据挖掘分类系统进行实验。从分类效果与时间开销两方面验证了该数据挖掘分类系统的准确性以及高效性。实验证明,本文设计的基于属性加权的朴素贝叶斯分类器在分类效果上优于传统的分类器;基于Hadoop的数据挖掘分类系统在处理大规模数据时,比单机环境下实现的分类系统具有更少的时间开销。
其他文献
一些学者认为非物质文化遗产与地理标志都是自然因素和人文因素的产物,他们之间存在着高度契合性,地理标志的权利共有性、地域性、无期限性构成了非物质文化遗产地理标志保护
中国2001年加入世贸组织,是顺应经济全球化趋势,打破了依靠贸易保护谋求发展的传统模式。但是,贸易救济措施的矛头也纷纷指向我国,在贸易额迅速增长的同时,随之而来的是大量
<正>在当下,社会新闻仍是许多报纸的主要新闻品种之一,尤其是市场化程度较高的都市类报纸,大都以社会新闻为主打。但翻开一些报纸的社会新闻版,读到的都是一些抢劫杀人、偷盗
<正>都市报是中国媒体产业发展的重要组成部分,它自上个世纪90年代中期慢慢兴起,经历了10多年的高速发展过程。但是伴随着网络媒体的迅速崛起,及各种新媒体的涌现,报纸的发展
随着中国市场经济的深入发展,股东在公司的经营过程中起着越来越重要且不可替代的作用。投资者取得股东地位的标示即是具有股东资格,而只有具有股东资格,股东才可以行使股东
<正>溪洛渡左岸地下电站,作为目前世界在建最大的地下电站,其主要工程量为:石方洞挖345.68万立方米,喷混凝土0.6万立方米,锚索0.45万束,锚杆17.3万根,挂网0.3万t,钢结构制安2
随着世界经济一体化的形成,全球贸易迅速发展。国与国之间的技术、设备、商品等贸易和交换往来越来越频繁,一些不可拆卸的大型设施设备的跨国或长距离的运输业务市场前景十分
目的 :探讨电针“百会”“足三里”穴对抑郁症的调节作用。方法 :复制慢性应激抑郁大鼠模型 ,施以电针“百会”“足三里”穴治疗。采用美国GraphPadPrism 3 0 2专用统计软件
<正>200年前的11月21日下午,从德国柏林附近一个名叫小万湖的池塘边传出两声枪响。当时并不出名的34岁剧作家、小说家海因里希·冯·克莱斯特先开枪打死了31岁的女友亨利特,
电信是指利用有线电、无线电或光电系统,进行的信息传输与交流。发达的电子通信网络是一个国家发展综合国力必不可少的基础设施和前提条件。历史发展表明,电信发展与国家崛起有