一种基于SMOTE的不平衡数据集重采样方法

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户:xpzcz1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集是指在数据集中,某一类样本的数量远大于其他类样本的数量,其会影响分类结果,使基本分类器偏向多数类。合成少数样本过采样技术(SMOTE)是处理数据不平衡问题的一种经典过采样方法,以两个少数样本对应的线段为端点生成一个合成样本。提出一种基于SMOTE的少数群体过采样方法,改进生成新样本的方式,在合成样本的过程中参考两个以上的少数类样本,增加合成样本的多样性。实验结果表明,在不同的基本分类器下该方法可以获得更好的接收者操作特征曲线面积(ROC-AUC)和稳定性。
其他文献
针对以R-CNN展开的目标检测速度慢,传统的SSD算法在检测小目标精度不高的问题,提出一种改进的SSD算法。该算法提出轻量级网络融合+层级特征融合构建新的金字塔特征层来解决SSD对小目标识别率低的问题。将卷积前后的特征进行轻量级网络融合,形成新的金字塔特征层,对形成的特征层进行层级特征融合,形成最终的金字塔特征层,在最终的金字塔特征层上执行目标检测任务。在PASCAL-VOC2007的训练集和验证
常规非局部均值算法易受噪声对图像的自相似度计算精度的影响,去噪结果对原始图像的边缘细节信息损伤较多。采用改进的Facet算子提取图像的边缘特征,根据图像内部像素分布情况,在不同的区域采用不同的自相似度计算方法,设置一种变尺寸的搜索窗口,最大限度地搜寻相似性邻域,降低噪声对自相似度计算精度的影响,有效保持图像边缘信息。数据测试结果表明,改进的非局部均值滤波算法能够有效保持边缘纹理信息,去噪效果要优于