基于不平衡数据集的数据挖掘分类算法研究

来源 :兰州理工大学 | 被引量 : 6次 | 上传用户:lwllwl200315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是一个高度信息化的时代,数据作为载体隐藏着大量可以挖掘的有用信息,如何处理数据和提取有价值的信息已成为迫在眉睫的问题。分类是数据挖掘领域的重要研究分支,是数据分析的一种重要形式。在实际生活中,重要的有研究价值的往往是那些数量稀少的数据类,简称不平衡数据集。那么如何在不平衡数据集中,有效的提取少数类数据集,将是本文研究的重点。主要研究内容如下:(1)针对不平衡数据集中正类分类准确率不高的问题,提出了一种集成C4.5和改进朴素贝叶斯(C4.5-INB)算法。首先通过对多数类概率乘以比例系数得到改进朴素贝叶斯分类结果,再利用C4.5算法对原数据分类。根据两种分类结果通过等权法或最优搭配器优先法确定这两种基分类算法的权值,最后根据平均表决法得到新的分类结果。利用UCI数据集对三种算法进行分类验证,结果表明提出的算法分类效果更准确,稳定性更好。(2)针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出了一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标准划分超平面,在分类超平面两侧选择最近距离的等量对称的多数类样本,组成平衡采样数据集,利用支持向量机(SVM)进行分类得到优化分类器,再用主动学习对去除了训练样本的不平衡数据集利用优化分类器进行分类循环,直到剩余样本为零。利用UCI数据集中的数据实验表明,提出的算法有效地减少了噪声数据对分类的影响,并有效改善了不平衡数据集的分类精度。(3)针对高维不平衡数据集分类性能较差的问题,提出了一种改进非监督线性差分投影(I-ULDP)高维不平衡数据集分类算法。算法首先将一个样本分成的局部小块都构造在同一个流形上,使得每个样本都有属于自己的流形空间;然后构造出每一个子流形的最小局部嵌入和最大全局方差,再利用优化求解目标函数得出在高维空间中嵌入的低维流形;最后通过流形距离设定支持向量机的分类超平面,通过训练支持向量机得到最终的分类器。经UCI数据集验证,I-ULDP分类算法在处理高维不平衡数据集问题上有明显的优势。
其他文献
振动台试验是研究结构试件抗震性能的一种重要方法,通过对振动台输入不同的激励信号,获取结构试件的特定测试点在不同激励信号下的速度、位移等运动参数。其中对特定测试点的位移进行相关分析,得到特定测试点处结构试件的变形位移具有重要的实际意义。本文将机器视觉技术应用到振动台试验中结构试件特定测试点处变形位移测量中,利用两台摄像机同步对随振动台一起运动的结构试件进行视频采样,然后通过对图像进行相关处理与分析,
国家“十三五”规划纲要指出,五年内将新建高铁里程1.1万公里,覆盖80%以上的城市,拓展区域连接,更好促进国民经济发展。高速铁路要求轨道具有高平顺性和高稳定性,为保证钢轨
开关磁阻电机(Switched Reluctance Motor,简称SRM)具有结构简单、成本低、效率高、调速范围宽、容错能力强以及控制灵活等突出优点。开关磁阻电机运行时,需要根据转子相对位置对
通过麦克风阵列获取语音信号,从中提取出能够反应说话人位置的有效信息并不断跟踪说话人的当前位置是信号处理和目标跟踪领域中的一项重要研究内容,在智能会议系统、语音增强
飞机结冰危害很大,冰风洞试验作为飞机结冰研究的基本手段,试验中需要监控结冰信息。目前结冰探测大多是单点探测,多点结冰探测的研究意义很大。光纤结冰传感器很适合多点化,因此
随着人脸识别技术在智能视觉物联网、视频会议系统、公共安全和金融服务等领域的广泛应用,智能环境下的人脸识别技术已成为模式识别领域的研究热点。但在实际应用中,人脸识别
冠心病以其发病率高、治愈率低等特点成为威胁人类身体健康的最大隐患之一,如果不能有效地预防治疗,冠心病将成为人类未来发展面临的严峻问题。随着智能医疗仪器的快速发展,
煤炭工业的发展对我国的经济起到了巨大的推动作用,但是井下瓦斯爆炸、顶板渗水塌方等事故严重威胁井下工作人员的人身安全。因此,为确保井下工作安全、快速、高效、准确、实时
无线传感器网络由很多个传感器节点组成,每个传感器节点具有感知、存储、处理环境信息和与其他节点进行无线通信的功能。无线传感器网络可以应用在很多领域,其中一个重要应用就
照明是人类能源消耗的一个重要方面,在我国,照明用电约占用电总量的12%。随着我国经济不断增长,用电量不断攀升,绿色节能照明越来越受到重视。LED(Light-emitting-diode,半导体发光