基于机器学习的跨项目软件缺陷预测研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:maomao1983520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于机器学习在软件缺陷预测(SDP)中的突出表现,基于机器学习的缺陷判定方法已经成为软件缺陷预测的主流方法。然而,随着跨项目缺陷预测(CPDP)的提出,传统有监督式学习方法的表现无法满足这一问题的要求。这是因为,在该领域中研究人员需要构建通用模型,并使用源项目数据来预测目标项目的缺陷,而训练数据和预测数据间分布的差异将对分类器的性能产生影响。在跨项目软件缺陷预测中,数据分布的预处理和可迁移分类器的训练是两个关键问题,能否从源项目和目标项目的数据中寻找合适的特征空间并训练优秀的迁移模型直接决定了最终预测的效果。然而,大部分研究者要么只关注于减小数据分布的差异性来寻找一个合适的特征空间,要么只关注于如何使分类器具有迁移的能力来增强其在训练数据和测试数据不同的情况下预测缺陷的能力。但是,他们都忽略了另一种方法对于最终预测结果的有效提升。此外,传统的机器学习算法使用的模型相对简单,属于浅层次学习,这类算法对复杂函数建模时表达能力受限,泛化能力较差。为了解决基于机器学习的跨软件缺陷预测中存在的问题,本文总结现有的研究方法,从以下几个方面进行了研究和实验:(1)本文提出了一种基于距离的基线变换法(BT)。为了减小源项目和目标项目中数据分布的差异性问题,该方法首先计算无缺陷样本之间的距离,然后从每个数据集中找出一个无缺陷样本作为该数据集的基线,最后使用Rank函数对数据进行转换。实验结果表明,经过基线变换法预处理的数据可以有效进行跨项目缺陷预测,并达到项目内缺陷预测的水平。另外,在与同类型预处理方法的比较中,基线变换法在跨项目缺陷预测上具有明显的优势。(2)本文提出了一种基于预处理和分类器迁移的综合预测模型(BTHYDRA+),分别用以构建更优的分类空间以及增强分类器的性能。该模型首先采用基线变换法进行数据的预处理,然后选择遗传算法(GA)作为迁移成分,以不同分类器的分类效果作为适应度,逐步演化在源项目和目标项目中有效的判别表征。最后以集成学习(EL)解决了特征单一和分类器表现力有限的问题。实验结果表明,综合预测模型有效地提升了分类器的预测水平,并且能够有效地结合不同的分类器以及适用于不同量级的数据集。在与其他跨项目缺陷预测方法的比较中,综合预测模型在准确率和F值上普遍占优。(3)本文提出了在目标项目上寻找基线的方式以及基线变换基于特征的实现形式。首先根据无缺陷样本的数量和特性,以聚类算法和基线加权平均法来解决目标项目中样本标记可能未知的情况。然后分析了基线变换法的粒度,使用特征层面的基线变换进一步减小了在不同项目间数据分布的差异。实验结果表明,聚类算法和基线加权平均法可以近似替代目标项目中样本标记已知时所计算出的基线。使用基于特征的基线变换法实现了在不同分类器(SVM、NB、CART)上性能的提升。
其他文献
随着乡村振兴战略的实施及国土空间规划的推进,对于县市域乡村建设规划提出了新的要求。文章分析了当前乡村规划编制、规划管理、实施机制等方面的问题,在此基础上,针对性地
本文以10个东盟国家为例,研究老挝产业内贸易的决定因素,目的是考察东盟产业内贸易的一般条件和决定因素。利用10个东盟成员国2001年至2016年的面板数据,利用计量经济模型对
随着“互联网+”口号的提出,互联网与各个行业的联系将变得更为紧密。然而,由于行业背景的不同,软件人员在参与各个行业的信息化进程中往往不能准确理解其特定的业务需求。因
研究背景及目的:抗癌药物所致手足综合征是抗肿瘤治疗过程中较为常见的手足皮肤不良反应。虽然它不会危及生命,但会对患者的身体、心理和社会交往产生严重的影响,其严重的不
雾霾气象条件下光学成像系统通常无法正常获取信息,极大影响了光学成像系统性能的发挥。同时,存在江河、湖泊、海面等水域的环境由于水汽更加充沛,更容易产生雾霾等恶劣天气,
随着在线社交网络及位置服务(Location-Based Services,LBS)的快速发展,根据社交网络中不同用户行为偏好,结合用户地理位置,为用户提供个性化的服务,成为近年来的研究热点,由
随着经济全球一体化的到来,企业之间的竞争变得越来越激烈,而车间调度是制造型企业的核心部分,所以改善企业的生产调度得到了很大重视。虽然经典的车间调度问题已经取得了很
掌纹识别作为新兴的生物特征识别技术近年来得到了迅速的发展。信息安全问题日益严重,许多学者提出了用自身的生物特征进行加密,得到了很好的效果。掌纹识别以安全性高和稳定
目前大众创业、万众创新的势头迅猛,推动了众多市场新生力量的产生,促进了产品和技术的不断更新和迭代。中国经济的发展,企业的成功,离不开对创新创造的重视和投入,离不开对
随着多媒体信息数量的极速增长,准确而快速地对多媒体信息进行处理的需求越来越迫切,相应的计算机信息处理技术得到了更加广泛的应用,其中基于内容的图像检索技术在图像分析