面向流数据的不平衡样本分类研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:peaktime30
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,出现了越来越多的数据形态,而流数据就是其中之一。该类数据不同于传统数据,其拥有海量性、实时性和动态变化性等特点。除此之外,在实际的应用中,数据往往是不平衡的,如信用卡交易记录中判断金融诈骗的数据、预测是否患病的医疗体检数据等。在处理不平衡样本问题中,SMOTE算法的思想主要是对相邻的少数类样点进行线性插值生成新的少数类样本点,以此来缓解数据的不平衡性。REA算法在解决面向流数据的不平衡样本分类问题时是通过采用滑动窗口机制,分时段地对分类器进行训练,最后采用集成的方法,形成最终的分类器。上述两种方法在解决本课题的问题上存在着各自的缺点,SMOTE算法并没有考虑到不同区域间少数类样本点的分布问题,并且也不能很好的掌控生成样本点的位置,而REA算法仅通过加入历史少数类样本点来缓解数据的不平衡性,往往忽略了对概念漂移以及类内不平衡问题的考虑。针对上述问题,本文提出了一种结合了REA算法和SMOTE算法的改进算法——CSMOTE_REA,用来应对面向流数据的不平衡样本分类问题。在本算法中提出了具有聚类特性的采样方法,首先在训练数据中通过加入历史数据来增加少数类样本点的数量,然后通过对少数类样本点进行聚类,以此来达到对不同区域少数类样本点的识别目的。同时,本文提出了一种基于网格生成样本的方法,该算法使得生成的样本点与原始少数类样本点具有更强的相关性,增大了少数类样本点的聚合度。此外,又提出了一种测试样本自适应的选择多分类器进行集成的方法,增大了分类器与样本的关联度,提高了分类器的预测能力。通过在多个数据集上进行实验,并与其它算法进行对比,结果表明CSMOTE_REA算法在面向流数据不平衡样本的分类问题中取得了较好的效果。
其他文献
硬盘作为一种高容量,高稳定性存储设备在存储领域占据着主导地位。硬盘容量的大幅度提升离不开读/写通道技术的改进,目前对读/写通道的相关研究主要表现在编码技术的改进和读
Web文档聚类可以协助搜索引擎找出高质量的网页,是Web挖掘的一个重要研究方向。Web文档聚类技术的关键之一在于特征词或特征词组的选择。一篇文档的主题并不是与文档中的所有
本文研究了经典规划形式化、SAT规划形式化、SAT问题求解算法和领域知识表示与使用等方面,主要的内容有:在研究智能规划概念模型、经典规划模型和因果理论规划模型的理论的基础
数字电视取代模拟电视是必然的趋势。数字地面电视广播,以其优越便捷的移动接收性能特别受到了青睐,近几年来,数字地面电视广播在世界范围内高速发展,很多国家都在积极地开发
本文主要针对如何开发智能手机应用系统这一目前需要解决的问题进行了研究。针对此问题,本文构建了基于Linux+MiniGUI+C的应用开发环境,提出了一种开发智能手机应用系统的解
移动支付是使用移动设备通过无线方式完成支付行为的一种新型的支付方式,它是无线通信技术与无线互联网技术以及人们需求应用的产物。它是下一代支付的主要手段。移动支付主
以湖北清江卷烟厂实际生产工序中的烟支计数问题为研究背景,实现了一种基于模板匹配的图像识别方法对烟支进行自动计数。对二值图像进行区域旋转编码的思想为此方法的理论基
随着计算机技术的发展,医学成像技术在临床诊断和治疗方面起到了很大作用。在现代医学中,越来越多的成像技术,例如,放射线成像、核磁共振成像、核医学和光成像,被用来诊断不
在硬盘生产过程中,一个不可或缺的环节就是伺服信息刻写。在这一环节,通过伺服刻写机,把伺服信息逐道写入盘片。为了保证刻写每一磁道伺服信息时的准确性,必须能够精确地控制
公钥基础设施(PKI)作为网格安全基础设施(GSI)的一部分,为网格中不同的实体(Entity)提供基本的认证服务。网格的虚拟性、开放性、扩展性要求不同组织间的实体相互访问时需要