浅议数据挖掘方法

来源 :科技致富向导 | 被引量 : 0次 | 上传用户:figo0204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据挖掘的研究融合了多个不同学科领域的技术成果,其方法由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法及可视化技术,以数据源为研究对象,形成了以下几种数据挖掘的方法。
  1.统计分析方法
  统计分析方法是利用统计学原理对数据库中的数据进行分析,从而找出它们之间的关系和规律的方法。统计分析一直是分析空间数据的常用方法,侧重空间物体和现象的非空间特性分析。统计分析方法包括线性与非线性分析、相关分析、回归分析、差异分析、判别分析、Bayes网络等。统计分析方法的缺点是难以处理字符型数据,需要具有领域知识和统计知识,一般由具有统计经验的领域专家来完成。
  2.基于集合论的数据挖掘方法
  集合论(简称集论)是一门研究集合(由一些抽象数学对象构成的整体)的数学理论。集论(加上逻辑和谓词演算)是数学的公理化基础之一,通过集合、元素及成员关系来形式化地表示其他数学对象。基于集合论的数据挖掘方法包括覆盖正例排斥反例方法、概念层次网络方法和基于粗糙集理论方法,其中应用最广泛的是粗糙集(RS)理论方法。这三种方法中都使用了集合理论中的一些概念和原理,并涉及到大量的集合运算。
  粗糙集理论(Rough Set Theory)是波兰学者Z.Pawlak在1982年提出的,它被广泛研究并应用于不精确、不确定、不完全的信息分类分析和知识获取。粗糙集(RS)作为集合论的扩展,是一种用于研究不完全和不完整信息描述的数据挖掘技术,它能够在缺少数据先验知识的情况下,以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理。
  覆盖正例排斥反例方法是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式),比较典型的算法有Michalski的AQ11方法、洪家荣改进的AQ15方法和AE5方法。
  概念层次网络(HNC)理论是关于自然语言理解处理的一个理论体系,它建立了网络式概念符号基元体系,即概念表述的数学表示式,这个表示式能够与自然语言的词语建立起语义映射关系,同时它是高度数字化的,每一个符号基元(字母或数字)都具有确定的意义,可充当概念联想的激活因子。语义网络是树状的分层结构,每一层的若干节点分别用数字来表示,网络中的任何一个节点都可以通过从最高层开始到该节点结束的一串数字唯一确定。HNC通过概念符号基元体系把自然语言映射到概念空间,数字化的概念表达式可以树形展开,这样才能充分利用概念符号化带来的优点对概念进行各种运算和操作。
  3.决策树方法
  决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。首先,以信息论中的信息增益原理为基础,寻找数据库中最大信息量的字段,建立决策树的根节点;然后根据字段的不同属性值建立树的分枝,再在每个分枝子集中递归建立树的下层分枝和节点,非叶子节点表示属性,最下层的叶子节点表示数据集的子类类别,这样便生成一棵决策树;最后对决策树进行剪枝处理,通过树形结构产生一组规则,依照规则将数据集分类。它着眼于从一组无序、没有规则的数据中推理出决策树表示形式的分类规则。决策树方法的优点是决策制定的过程可见,不需要长时间构造过程,描述简单、易于理解、分类速度快;缺点是很难基于多个变量组合发现规则。决策树方法擅长处理非数值型数据,而且特别适合大规模的数据处理。常用的决策树算法有 CLS算法、ID3 算法、C4.5 算法等。
  4.聚类分析方法
  聚类分析方法是根据数据特征,按一定的距离或相似性系统,将数据分成一系列相互区分的类,划分的标准是类内差别最小、类间差别最大。即将实体对象或抽象对象的集合分组,这个由类似的对象组成的多个类的过程称为聚类。通过聚类以后,数据集就转化为类集,同类数据具有相似的变量值,不同类数据的变量值不具有相似性。在知识模式类型无法得知的情况下,可以运用聚类分析法进行分类、识别。按照模式间的相似程度进行自动分类的聚类分析法,能够将相似度大的模式归为一类。按聚类过程分,聚类分析法有凝聚算法、分裂算法、增量聚类和划分聚类。按相似性系统,聚类算法可以分成基于距离的方法、基于层次的方法、基于密度的方法以及基于网格的方法。例如,层次方法就是按照一定的层次分解给定的数据对象集合,可以分为分裂层次方法和凝聚层次方法。聚类分析法适用于分析样本之间的内部关系,合理的评价样本结构。此外,孤立点的检测也可以应用聚类分析。聚类是为了将某个对象从大量的数据中分离出来,而不是简单地将数据集合在一起。目前,聚类分析法已广泛应用于图像处理、模式识别、经济分析等多个研究领域。
  5.人工神经网络方法
  神经网络法是一种模拟生物神经系统的结构和功能,通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络(Nerual Net)指由大量的神经元(PE)互连而成的网络,神经网路模型通常由输入层、中间层(亦称隐层)和输出层组成。在每个神经元求得输入值后,再汇总计算总输入值;由过滤机制比较总输入值,确定网络的输出值。可以通过连接一组神经元来模拟复杂行为,当修改连接层的“接度”或权值时,神经网络就进行了学习或“训练”。
  神经网络的学习方法主要表现在上述权值的修改过程上。这种方法模拟了人脑神经元结构,通过大量神经元构成的网络来实现自适应的非线性动态系统,具有对非线性数据快速建模的能力,通过对训练集的反复学习来调节自身的网络结构和连接权值,并对未知的数据进行分类和预测。其优点是具有自学习、自组织、自适应、抗干扰、分布存储、联想记忆、非线性学习、大规模并行处理等功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维度变量,具有“黑箱”性,人们难以理解网络的学习和决策过程,输出结果也难以解释。目前,神经网络法主要用于数据挖掘的分类、聚类知识以及特征的挖掘过程。
  6.遗传算法
  遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“自然选择,适者生存”,在设计中使用抽象于生物进化过程的基于自然选择和生物遗传机制的优化技术;它由繁殖(选择)、交换(重组)和变异(突变)三个基本算子组成,具有隐含并行性、易于和其他模型结合等性质。遗传算法常用于优化神经元网络,提高神经网络的可理解性,解决其他技术难以解决的问题。遗传算法在问题解决过程中不是针对参数本身,而是针对通过参数集进行编码的基因个体,使其可对一些复杂的结构对象(集合、序列、树、图、表等)进行操作。利用对所有个体进行处理的方法,可以探索空间中的多个解,使遗传算法具有较好的全局搜索特性。它的主要优点是可以处理许多数据类型,同时可以并行处理各种数据,对问题的种类具有很强的适应性;缺点是需要的参数太多,编码困难,一般计算量较大,从遗传算法自身的角度考察,遗传算法实际上是一种最难以理解和开发难度最大的算法。
其他文献
摘要:乒乓球是一项具有较高技能的运用项目,想要打好乒乓球,运动员必须要有灵敏的反应力和刻苦的训练精神。这就要求教师在教学中需要结合学生的实际情况,不断优化教学内容,用多种途径来让学生感受到乒乓的魅力,产生对乒乓运动的兴趣,为培养学生乒乓球品德素养奠定基础。  关键词:兴趣;乒乓球;品德素养  乒乓球是一项具有较高技能的运用项目,想要打好乒乓球,运动员必须要有灵敏的反应力和刻苦的训练精神[1]。但是
摘要:随着素质教育的不断深入,德育教育受到的关注越来越多,德育思想对学生的知识、技能、品德习惯等方面有着十分重要的影响。在体育教学中渗透德育教育已经成为学校教育发展的必然趋势,本文旨在探讨体育教学中渗透德育教学的具体方法。  关键词:体育教学;德育教育;具体方法  素质教育不断发展,德育教育受到了越来越多的重视,将德育思想渗透到体育教学中对学生的健康发展有着十分重要的意义。体育课作为促进学生全面发
新课导入是课堂教学的“第一锤”,这充分说明了新课导入的地位和重要性。如果这一锤准确到位,就能迅速吸引学生的注意力,激发学生学习兴趣和求知欲望,就能营造良好的课堂教学氛围
期刊
小学班主任作为班级的领导者和组织者,责任重大,不仅要传授给学生知识,也要对学生进行品德教育,提高学生的品德,教导学生做事先做人,品行优先.小学是孩子人生的起跑线,这就需
创造性思维是人类思维的精华,是引发创造活动的前导。一个具有创造性思维的人能够科学地使用大脑,发挥自己的创造才能,得心应手地解决矛盾,攻克难关。近年来,随着生产力和科学技术
摘要:班主任是学校德育工作的骨干力量,其作用是其他人不能取代的。班主任和学生接触最多,是学生效仿、学习的对象,其一言一行都会给学生留下深刻的印象,对学生的思想行为产生潜移默化的影响。德育工作,是班主任工作的基本内容之一,也是做好班级工作的重要保证。  关键词:班主任;德育;策略  现在的学生光顾着学习了,所以很多教师和家长相应地对学生的一些个人小节问题还有一些做人的道理方面的教育就相应地比较少。其
创客的诞生不但对社会发展起到了促进作用,还对我国教育带来了创新。在此背景下,本文将对创客在高中信息技术教学中的创新进行探讨,以使创客能更好的促进我国教育事业的发展。
摘要:教育事业的改革与进步,推进了小学思想品德教学的发展。利用思想品德教学,培养当代小学生的个人品质,推进学生全面发展,才能实现教育目标。文章基于小学思想品德课堂教学现状,主要分析了使小学思想品德教学富有生命活力的策略。  关键词:小学思想品德;课堂教学;生命力;教学策略  让小学思想品德教学过程更有活力,才能吸引小学生的注意力,促进小学生主动且快乐的学习。探究全新的思想品德教学方法,打造活力的课
目前以教师为中心的,完全灌输性的,独白式的教学已近绝迹。如今的语文课堂呈现出另外一种典型的现象——问答仪式。或者可以说,提问成了课堂的主要组织形式。教师连续提问,学生习惯性地举手、仓促回答。学生被指名回答问题时,教师有时还要连续追问,对于学生的回答,老师只作简单地肯定、否定甚至不置可否,而后自己补充讲解,再提出下一个问题。  认真检验一下这种课堂,不难发现教学过程中的主体并不是学生,学生只是完全在
随着网络信息技术的发展,软件产品的需求量也越来越大,软件技术的不断发展和创新,软件的发展前景及发展空间和软件产品的规模繁琐化也在逐步的改进提升中。软件技术作为信息产业