数据挖掘中的数据预处理

被引量 : 0次 | 上传用户:wbgbg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展和数据库的应用,各领域的应用数据库中都积累了大量的历史数据。如何利用这些有潜在价值的数据,从中提取出有用的信息和知识,是应用者日益关注的问题,也是数据挖掘技术的关键所在。要进行数据挖掘,首先要保证数据质量,良好的数据能提高数据挖掘效果和效率,数据预处理逐渐成为数据挖掘不可缺少的重要前提。在数据挖掘的过程中如果只着眼于数据挖掘算法的探讨,而忽视了对数据预处理的研究,在一定程度上往往会失去数据挖掘的某些重要意义。因为实际系统中的数据一般都具有不完整性、冗余性和模糊性,很少能直接满足数据挖掘算法的要求。另外,海量的数据中无意义的成分很多,严重影响了数据挖掘算法的执行效率,而且由于其中的噪音干扰还会造成挖掘结果的偏差。因此,对不理想的原始数据进行有效的归纳和预处理,已经成为数据挖掘系统实现过程中的关键问题。本文通过对数据挖掘、数据预处理技术和理论的学习,以及对国内外数据挖掘与数据预处理系统的发展情况的研究,归纳总结了国内、外数据挖掘系统中数据预处理的特点,根据当今数据挖掘技术和数据挖掘系统的发展趋势,设计了一个数据预处理系统,该软件设计实现的预处理系统主要包括数据预处理过程中最常用、最直接、最有效的和有一定通用价值的维规约、聚集、过滤异常值、去掉重复记录处理,软件在一定程度上实现了对大量数据的清洗工作,为进一步数据挖掘提供了可靠的数据保障。
其他文献
<正>语言包含着一个民族特有的文化底蕴,语言的沟通交流,不仅促进了不同地区、不同地域的融合,也代表了国家与民族兴旺繁荣发展的程度。翻译作为国与国之间跨文化沟通的主要
二十世纪五十年代中叶,经过漫长的发展演变,中国竹笛成长为一件独奏乐器。随之,许多艺术流派纷纷涌现,笛艺呈现繁荣之势。本文梳理了笛艺流派产生的大致脉络,对南派、北派、
同城非法运输烟草专卖品活动是当地烟草部门日常监管工作常遇的情形。但在同城非法运输烟草专卖品的违法性问题上,各地方烟草部门意见不一。本文基于烟草专卖法律法规规章以
20世纪70年代后,由于人口结构的变化以及经济发展的停滞,西方福利国家都面临了社会保障支出资金不足的尴尬局面,从而引发了财政困难。由此涉及的不仅仅是社会保障改革,还涉及到公
由中国职业技术教育学会科研工作委员会举办的首届全国职教科研贡献奖评选结果揭晓。全国首届职教科研贡献奖共设立宏观决策咨询奖、教学改革推动奖、科研成果推广奖、国际合
参麦注射液是一种以古方为基础研制的中药注射液,其主要成分为人参和麦冬,其含有人参皂苷、人参多糖、甾苷、有机酸等成分,这些有效成分可加强机体器官抗应激能力,调节和促进
目的:为完善我国药品价格规制政策提供参考。方法:运用文献研究、制度比较等方法,归纳总结德国、日本和我国台湾地区药品价格规制政策的共性和特色,借鉴其成功经验。结果与结
以往分析液体火箭发动机系统静态特性的程序都是针对特定的发动机系统编写的,这样的模拟程序缺少通用性,一旦发动机方案发生变化,要重新列系统方程与编程序进行模拟.本文采用
随着中国社会发展到现阶段,一方面取得了举世瞩目的成就,一方面却也出现了道德滑坡、信任危机、践踏法律等社会问题。究其根源是当前在立法、执法、司法和守法等法治建设的诸
弱势群体体育基本利益的保障关系到弱势群体的健康与幸福,关系到我国和谐社会的构建与体育事业的和谐发展,关系到我国能否实现体育强国之梦。要使弱势群体的体育利益得到有效