【摘 要】
:
非平衡数据的分类问题是机器学习和数据挖掘中的重要研究方向。在实际生活中非平衡数据广泛存在,许多重要信息存在于少数类样本数据中,因而非平衡数据的分类问题愈显重要。由
论文部分内容阅读
非平衡数据的分类问题是机器学习和数据挖掘中的重要研究方向。在实际生活中非平衡数据广泛存在,许多重要信息存在于少数类样本数据中,因而非平衡数据的分类问题愈显重要。由于非平衡数据少数类样本所占的比例较少,容易造成少数类样本的分类错误。因此,传统的分类器对非平衡数据的分类效果并不理想。当前已有的改进算法在不同程度上都可以提高非平衡数据的分类效果,但都存在一定的弊端。一方面,忽略了非平衡数据的统计特性,随机生成的样本容易与多数类产生重叠;另一方面,在生成数据时并没有考虑数据的生成方向,生成的新样本质量不佳。针对以上问题,本文考虑了非平衡数据集的统计特性与数据的生成方向,在对生成新样本的原始数据的选择上更加注重少数类的分布情况,根据多数类入侵少数类的范围,对非平衡数据提出一种数据边界的对称翻转算法并进行了数据实验,验证了新算法的有效性。首先,利用GMM-EM算法获得两类数据的概率密度函数,得到多数类与少数类数据的均值和均方差;然后选择少数类的均值为对称中心,利用统计学中的“3σ法则”,确定多数类入侵少数类的翻转边界,再根据翻转边界确定少数类的翻转区域,将翻转区域中的少数类样本进行翻转重采样并且剔除与翻转区域中少数类原始数据重复的点。此时,当两类数据不平衡时,在翻转区域使用概率增强再次生成少数类,使数据达到平衡。新算法考虑了新样本的生成方向,避免了多数类与少数类数据间的交叉重叠,从统计层面使数据达到平衡,提高了少数类数据的生成质量;最后,从UCI、KEEL数据库中选取数据集进行实验,采用决策树分类器进行分类训练,比较新算法与ADASYN以及SMOTE相关算法的实验结果,实例分析验证了该算法的可行性和有效性。
其他文献
诗歌中的星象意象在文学的发展中逐渐形成一种特定的意象群,古代诗歌中的星象意象涵义复杂,李白诗歌中的星象意象是展现他个人情思和时代思想的窗口,本论文的主要内容是通过归纳整理出李白诗歌中的星象意象,总结李白诗歌使用星象意象的特点,进而结合当时的时代背景,探索李白在当前阶段的情感表现与人生追求。本文首先对“星象意象”一词的定义做出界定,形成确定的星象意象的研究范畴,同时介绍了研究背景和意义,重点阐述了国
长期以来,我国政府一直倡导企业加强环境保护,尽管如此,环境违规现象屡禁不止,紫金矿业含铜毒水渗漏、汉锌铜矿违规排污等环境污染事件的频发,充分说明企业环保意识有待加强
报刊领域中的女性形象研究一直都是不可或缺的,在1921-1939年间,由黄伯惠主持《时报》的期间,却鲜少有人研究该时段下广告中的女性形象。该报在黄伯惠的主持下拥有了独特的风
随着全球经济危机的影响和对清洁可持续能源的生态关注的持续增加,能源转换和储存设备的开发得到了更广泛的重视,如水电解槽、燃料电池和金属空气电池等。为了更好地为促进技术进步,新型能源的开发至关重要。能源转换装置的基础层面是一系列的电化学反应过程,并且在未来的商业化技术中,氧化还原反应的缓慢阴极动力学限制了燃料电池的整体性能效率。目前的技术主要使用铂及其合金,但是由于甲醇交叉的低耐受性而导致的稀缺性、高
近年来不断上涨的住房价格造成劳动力跨区域流动,导致区域内人口规模和人口结构发生改变,住房价格应合理化以满足不同层次人力资本的需求。基于我国2006-2018年35个大中型城
在采购经费紧张、馆舍空间有限、用户入馆人数逐年下降的背景下,我国的图书馆界不得不开始审视现有的馆藏结构和馆藏质量,馆藏评价理论也经历了从单一的藏书评价,到21世纪初
共产国际从1919年3月成立到1943年6月正式宣告解散,共存在了24年。在这24年中,不管是中国共产党的创立还是中国革命的胜利,都离不开共产国际的大力支持。共产国际的解散在中国引起了轩然大波,国内的主要政治势力出于各自的政治立场,就其解散给出不同的解释,并采取相应的措施。国民党借此机会发动对中共的全面攻势,不仅在舆论上叫嚣“解散共产党”,还在军事上武力威胁共产党人,包围陕甘宁边区。中国共产党在各
乌兰察布市位于我国北方农牧交错带,其植被覆盖变化直接关系着京津地区乃至华北地区的生态安全。因此,为了合理评价其生态建设效果及监测植被覆盖动态变化特征,本研究以2000-2015年MODIS中国500m NDVI月合成产品数据为基础,结合研究区同期降水和气温数据、2000年及2015年两期土地利用数据、DEM数据等,采用趋势线分析法、差值法、多元线性回归分析法和残差法、土地利用转移矩阵等方法,开展乌
我国经济进入新常态以来,增速减缓、结构优化、经济驱动力转变,从要素和投资转向创新,为适应经济新常态,中央启动供给侧改革以配合我国经济发展的新特点。去杠杆作为供给侧结
柴油和汽油机因具有优异的动力输出系统、良好的经济性和稳定性作为汽车发动机普遍使用,但尾气中主要污染物碳烟和挥发性有机物(VOCs)已经严重威胁到生态环境和身体健康。催化