基于阈值感知技术的不平衡数据集缺陷预测研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:ifeelart
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺陷预测力图建立缺陷预测模型来预测软件中包含缺陷的代码区域。精确的缺陷预测模型能协助开发者关注更可能包含缺陷的文件/方法等,从而能更好地分配软件资源,进而提升软件质量保障和维护行为的效率。当前缺陷预测研究领域中的固有难点是真实世界中软件抽取的缺陷数据集都是不平衡的,即包含缺陷的模块样本数量一般远小于不包含缺陷的模块样本数量。在不平衡数据集上进行缺陷预测模型训练时,机器学习分类器往往因为包含缺陷与不包含缺陷的模块数量间的不平衡而导致偏置,从而无法实现精确的缺陷预测模型。当前缺陷预测领域处理不平衡数据集的主要方法包括数据集平衡化技术(如下采样和过采样等)和集成学习方法(如Bagging方法等)。然而现有的不平衡数据集处理技术往往会为缺陷预测模型带来一些副作用,如训练不完全和过拟合等。在缺陷预测的过程中,除了各种数据集平衡化技术及模型辅助训练的方法之外,本文通过对缺陷预测的机制作分析,发现对预测结果概率的阈值做调整也能做到相似的效果。然而在缺陷预测领域中阈值常常以默认值(0.5)作为预测值分割依据。根据对当前的文献调研,现有的缺陷预测研究中很少有研究者采用阈值调整的方式来降低不平衡数据集对预测模型的影响。本文从缺陷预测流程中以往被忽视的阈值角度切入,试图找到比现有处理技术更适用在不平衡数据集上构建缺陷预测模型的方法。本文提出7种通过历史(训练)数据调整阈值来优化模型分类结果的方法-阈值感知技术。阈值感知技术根据历史(训练)数据集上的缺陷率自适应计算阈值,并通过新的阈值对测试数据集的预测值进行划分。本文在缺陷预测研究领域常用的三个数据仓库,PROMISE、NASA和AEEEM中挑选出缺陷率小于20%的数据集作为不平衡数据集,并在这些数据集之上进行缺陷预测。为了验证阈值感知技术在不平衡数据集上做缺陷预测的效果,本文工作主要由以下三个方面展开:(a)搭建阈值感知技术的实验平台—将阈值感知技术加入缺陷预测的整体流程中,融合现有不平衡技术实现可参数化调整的实验平台。(b)研究阈值感知技术的性能—将阈值感知技术与传统分类器及现有不平衡数据集处理技术进行比较,从必要性、有效性及广泛性3个角度着手,分析阈值感知技术为不平衡数据集的缺陷预测带来的性能提升。(c)研究阈值感知技术的应用—从学习器、现有阈值感知技术、跨版本的信息关联性、跨项目的信息关联性及数据集缺陷率五个不同方面切入研究阈值感知技术的适用场景。实验结果表明:(a)阈值感知技术能够大幅度的在各指标(如Recall、F1和Gmean等常用指标)上提升在不平衡数据集上缺陷预测的表现结果;(b)阈值感知技术在大部分指标下的表现效果比现有不平衡数据集处理技术更突出,尤其是在Recall、Gmean、Gmeasure三个指标上明显提升;(c)不平衡数据集处理技术在结合部分阈值感知技术时,在大多数场景上,对处理不平衡数据集上的缺陷预测问题能够有更好的效果,例如在Recall指标上有70%的阈值感知技术与不平衡数据集处理技术的组合效果显著优于默认阈值与不平衡数据集处理技术的组合。根据上述的发现,本文得出以下结论:(a)在不平衡数据集上建立缺陷预测模型时,强烈推荐采用阈值感知技术;(b)在处理不平衡数据集的缺陷预测问题时,相比现有不平衡数据集处理技术而言,更应该采用阈值感知技术;(c)选取适当的阈值感知技术与不平衡数据集处理技术进行搭配能够在不平衡数据集的缺陷预测上有更好的效果。
其他文献
为提高我国经济发展的质量,建设创新型国家,节能减排与轻量化已成为我国汽车工业领域发展的重要目标。自冲铆接技术因其适用面广、易与机械臂组合共用、铆接接头性能优异等特点而逐渐被应用于机械工业领域。为了优化自冲铆接头的性能,同时研究极端条件下轻量化自冲铆接头的承载可靠性,本文首先分析了泡沫金属夹层对自冲铆接头成形特性的影响规律,其次,研究了以AA5052铝合金为基板的夹层结构自冲铆接头在盐浴周期浸润环境
我国的软件业发展越来越快,自然而然为国内的互联网公司带来了巨大的挑战:人员薪资压力、服务器成本徒增,客户需求多变且项目进度紧张等问题。本文对基于持续集成的系统研发方式进行分析完善,确保在用户要求的时间内完成并且保证产品的质量。本文重点研究了A公司的基本概况,主要对A公司软件项目研发过程进行了阐述,找出当前研发过程存在的问题:用户满意度太差、产品功能跟不上市场发展,质量未达标,BUG频频出现,项目迟
配位聚合物是一类由金属离子或团簇与有机配体自组装而成的无机-有机杂化材料,拥有丰富多样的结构类型,在药物传输、吸附/分离、催化、传感等领域均展现出广阔的应用前景。Mo
涡旋压缩机是最近20年关注及使用最多的容积式压缩机。它能率高,特别是国家积极治理空气质量,北方大面积推广煤改电的背景下,涡旋压缩机在空气源热泵热水器领域已经变得流行
白色有机发光二极管(white organic light-emitting diodes,WOLED)因具有成本低、重量轻、对比度高、柔性好、色彩丰富等优点,受到了广泛关注。随着三十多年的快速发展,WOLED
超限学习机(Extreme Learning Machine,ELM)将随机高维映射与多元线性回归相结合,是现阶段比较热门的研究方向。相比于反向传播(Back Propagation,BP)神经网络,该算法具有训
氧化锌(ZnO)是一种宽禁带直接带隙氧化物半导体,室温下禁带宽度为3.37eV,由于本征缺陷存在而显n型。ZnO具有高室温激子结合能、高电子饱和漂移速度以及高化学稳定性。ZnO薄膜及其他各种形式的材料在发光、紫外探测、光催化、透明电极、压电、薄膜晶体管等领域都有应用前景。本文立足于ZnO薄膜:1)首先开发了一种基于低温液相的薄膜沉积方法,制备了本征ZnO和掺铝ZnO薄膜,采用XRD、SEM、UV-
伴随我国癌症患者人数增加,与癌症相关的问题成为人们关注的重点,正在挑战我国现有的医疗体系。大型肿瘤医院因其医疗资源有限,很多求医的人不得不在医院附近寻找一个安身处
2016年,诺贝尔化学奖授予了三位研究分子马达的科学家;2018年,诺贝尔物理学奖授予发明了“光学镊子”的三位科学家。这两项大奖的获奖原因,都是与微型机器或者微观粒子控制手段的工作相关,这表明利用合适的控制手段来操控微型机器的重要性。微米马达是指大小在微米尺寸,具有某些功能或者能够完成特定任务的微型设备。虽然关于微米马达的研究已经在材料的选择、构造方法,推动机理和应用方面取得很大的进展,但是目前微
旋转机械是工业领域非常重要的动力装备,广泛应用于航空航天、船舶运输、铁路运输、能源产业等国民经济工业生产的各环节。而滚动轴承作为旋转机械的重要零部件之一,它的失效往往会直接或间接导致系统整体功能的失效。因此,对轴承进行健康监测和故障诊断对保证整个旋转机械和系统的安全运行尤其重要。实际中,变速、变载是轴承运转的常态,在这种变工况环境中轴承将受到比定速定载荷工况下更为复杂的应力,也更易发生故障。然而变