论文部分内容阅读
随着信息技术的发展,数据挖掘技术作为目前计算机研究的热门领域,在社会各方面得到广泛使用,它旨在从大量数据中挖掘出有价值的信息。
本文重点研究数据挖掘中的分类方法和聚类方法,首先以学校现有的数据平台中的数据为挖掘对象,使用数据挖掘技术中的聚类技术和分类技术对数据进行分析,挖掘出影响学生就业能力的相关信息;接着针对人脸识别不平衡分类问题,提出基于不平衡分类的人脸检测系统。主要工作如下:
1.将模糊论和聚类技术的结合,模糊聚类技术改变了传统聚类将对象进行非此即彼的划分。以学生成绩、就业、个人档案等相关信息为研究对象,经过对数据收集、抽取、清理、集成、变换、消减后,再对数据进行了聚类,并对结果进行了分析,得到有意义的用户信息。
2.在分析研究了决策树一般算法的基础上,重点对比分析了C4.5算法及其改进算法R-C4.5。然后以学生就业相关数据为分析对象,使用更加健壮有效的R-C4.5算法构造决策树,并提取了分类规则,最后对规则结果进行了分析,从中得出影响就业相关性的若干方面信息,为提升学生就业能力提供决策依据。
3.针对传统的分类算法在解决人脸识别时存在识别率下降的问题,以AdaBoost算法为基分类器,提出基于BalanceCascade算法的人脸检测系统,构建基于不平衡分类的人脸检测系统。在人脸数据集ORL上进行大量实验,与传统的不平衡分类方法AdaBoost和UnderSamping算法进行比较,实验结果表明,BalanceCascade算法性能优于其他算法。