【摘 要】
:
在软件维护过程中,开发者会对用户在软件使用过程中提交的缺陷进行定位和修复。为了提高处理缺陷的效率,研究者已经针对缺陷之间的关联关系进行研究,主要包括重复缺陷报告和相似缺陷报告的检测和推荐。已有的研究主要采用自然语言处理中的方法用于分析缺陷报告,利用缺陷报告的文本信息建立检测和推荐模型。随着开源项目的数量的增多,项目之间的调用关系变得复杂。因此,不同项目之间的缺陷也会具有关联关系,这类缺陷通常被称为
论文部分内容阅读
在软件维护过程中,开发者会对用户在软件使用过程中提交的缺陷进行定位和修复。为了提高处理缺陷的效率,研究者已经针对缺陷之间的关联关系进行研究,主要包括重复缺陷报告和相似缺陷报告的检测和推荐。已有的研究主要采用自然语言处理中的方法用于分析缺陷报告,利用缺陷报告的文本信息建立检测和推荐模型。随着开源项目的数量的增多,项目之间的调用关系变得复杂。因此,不同项目之间的缺陷也会具有关联关系,这类缺陷通常被称为跨项目关联缺陷。由于跨项目关联缺陷在不同的项目中,所以对这类缺陷进行定位和修复十分困难,给开发者带来新的挑战。同时,之前的工作很少有针对跨项目关联缺陷的相关研究;并且跨项目关联缺陷的文本信息不足且缺陷之间文本差异较大,之前的研究中提出的基于文本的方法不适用于跨项目关联缺陷。针对上述问题,本文进行2方面的研究:跨项目关联缺陷的预测以及跨项目关联缺陷的推荐。本文包括以下4个方面的主要工作:(1)从GitHub上收集7个比较流行的开源项目的信息构建本文的数据集,主要根据缺陷的链接信息利用正则化匹配的方法来确定跨项目关联缺陷。从而生成用于跨项目关联缺陷预测的数据集,其中包括真实的跨项目关联缺陷和普通的缺陷。同时,也能获取到跨项目关联的缺陷对,再采用下采样的方法构建无关联的缺陷对,进而生成用于跨项目关联推荐的数据集。(2)提出一种新的方法用于预测跨项目关联缺陷,基于缺陷的过程度量信息(包括缺陷的文本统计信息以及缺陷提交者的历史活动信息)进行特征抽取。利用这些过程度量特征(P),建立预测模型(PM模型)进行跨项目关联缺陷的预测。同时,使用TF-IDF和Word Embedding技术处理缺陷的文本信息(T和W),将其作为特征构建2种文本模型(TI模型和WE模型)。此外,将过程度量特征和文本特征结合构建3种混合模型:P+T模型、P+W模型、P+T+W模型。(3)在跨项目关联缺陷的推荐中,针对跨项目关联的一对缺陷进行特征抽取。主要包括:缺陷之间的相似度、缺陷的开发者之间的合作关系以及缺陷的开发者对于项目的熟悉程度。利用这些特征,建立模型推荐跨项目关联缺陷。另外,直接根据缺陷之间的文本相似度进行跨项目关联缺陷的推荐。分别采用3种方法计算缺陷的文本相似度:TF-IDF、Word Embedding和BM25。(4)在构建的数据集上验证本文提出的预测模型和推荐模型的有效性。为了评价预测模型的效果,采用2种不同的评价指标:MCC和F1。通过比较PM模型和其他预测模型的实验结果,本文提出的PM预测模型比其他的文本模型在2个评价指标上都有显著的提升。对于推荐模型的结果,主要使用3种不同的评价指标:MAP、MRR、Recall-rate@k。而且,实验中分成3个不同的场景:在具体的目标项目中进行推荐、在所有的项目中推荐以及跨项目的推荐。通过实验结果发现,在不同的场景下,基于抽取的特征构建的推荐模型的实验效果比基于相似度的推荐方法的效果要好。
其他文献
明代法律并未对“夫妻相犯”的概念作出明确表述,根据明律相关规定,夫妻相犯泛指夫妻双方在婚姻关系存续期间作出的相互侵害行为,这种相互侵害行为是法律所不允许的。具体而言,“夫妻”定义限定在一夫一妻范围内,不包括妾室等;“相犯”包括财产权利的侵害和人身权利的侵害,法律明文规定惩处该侵害行为。因此,明代法律中的夫妻相犯,包含三个要素:第一,侵害行为发生在夫妻婚姻关系存续期间;第二,侵害客体包括双方的身体、
近几年,新闻媒体中不乏低龄未成年人实施严重的恶性行为的报道,由于未达刑事责任年龄,且我国针对该类未成年人的处遇措施未能发挥作用,最终只能释放,这种结果引起社会公众的强烈反对,认为,我国的刑事责任年龄已经不适应我国国情,应该予以降低,以应对犯罪低龄化的现象。本文分为三部分,共五章,第一部分案情介绍及争议观点分析,通过2019年发生的骇人听闻的未成年人杀人案,引出我国目前对于刑事责任年龄的争议,即,我
敷设在空中、地下、构筑物中的各种功能的管道犹如城市的血管,在城市的发展中起着重要的作用。随着管道材料老化、环境变迁,加上人为和工程活动的影响,管道泄漏成为其安全运营中最为关键的问题,而解决这一问题的前提就是对管道进行有效监测。多年来,管道泄漏监测取得了长足的发展,但传统的管道泄漏监测手段存在监测成本高、误差大、漏报率高等问题,远远不能满足管道泄漏的监测要求。光纤感测技术凭借着其分布式、高精度、实时
自青霉素问世以来,诸多微生物来源的天然产物及其衍生物被用作新药应用于临床治疗。然而受限于目前的技术手段,实验条件下很多天然产物被重复分离,使新型药源分子的挖掘变得困难。微生物在严苛的生存条件下,会产生活性多样的次级代谢产物以应对环境压力。因此,我们着眼于条件苛刻的生态环境,从不同来源的特殊生境样品中分离链霉菌进行发酵。以期获得活性优异、骨架新颖的次级代谢产物,为药物研发提供新思路。我们选择三株来源
随着我国经济取得伟大成就,我国证券市场的成长也很迅速。与其快速成长和庞大体量相伴生的,是我国证券市场多发的证券违法行为,广大中小投资者承受了大量损失。究其原因,较为一致的观点是我国证券市场制度设计不科学、运作不规范、行政监管和司法救济乏力所致。就司法救济乏力而言,其主要原因是我国当前的证券民事救济制度存在诉因单一、诉讼方式狭窄、起诉门槛过高、诉讼成本高昂等问题。为了解决上述问题,我国学者提供了较多
过渡金属化合物具有高理论容量和低成本,是备受关注的储能材料。但是,这类储能材料的实际容量有限,主要原因是其导电性低、活性表面积小。本论文从减小储能材料尺寸、协同促进电荷输运动力学的角度出发,通过与碳基材料的复合来提高导电性、缩短离子固相扩散距离、增加电化学活性表面积、提高电荷传输速率,从而协同促进其储能性能;通过建立电极材料与储能性能的构效关系,为过渡金属化合物的储能性能优化提供参考。经过研究,取
税务行政复议制度,是指上级税务机关通过受理税务行政复议案件,对下级税务机关具体执法行为和纳税人履行税收义务情况进行审查监督的一种行政监督救济制度,其目的是保障纳税人的救济权利,弥补纳税人因税务行政行为的违法、不当而蒙受的损失。我国现行税务行政复议制度存在着“两个前置”条件:一是在申请复议前,必须缴清税款及滞纳金或者提供相应的担保,此为纳税前置;二是在提起诉讼前,必须先经过复议程序,此为复议前置。税