开源软件中三类预测问题的学习模型研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：hgjsy

【摘要】

：

【作者】

：

刘超

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2018年01期

【关键词】

：

开源软件学习模型软件参与推荐软件变更预测软件缺陷预测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

开源软件中预测问题是软件工程领域热点课题之一,一直受到研究者和软件开发从业者的广泛关注,特别是对GitHub中开源软件的研究。GitHub是当前最大开源社区,到目前为止已拥有5700万开源项目。开源软件预测问题研究的基本思想是以开源项目中的源代码和程序员行为日志为研究对象,包括项目筛选、代码修改、缺陷修复等,通过软件度量来刻画开源软件中的成员流动、代码变更动向、代码潜在风险,以机器学习算法为基础建立学习模型。这些学习模型旨在为程序员提供自动化决策工具,提高程序员的开发效率、提高开源项目的演化进度、控制开源软件的开发成本。本文研究的三类预测问题包括:1)开源软件参与推荐,预测哪些开源项目是程序员能够成功加入的,帮助程序员降低项目检索负担,避免因项目参与失败而浪费大量时间和精力在项目学习、代码提交等工作上;2)软件变更预测,预测项目中哪些代码文件会在下个版本发生变更,帮助程序员控制项目开发进度;3)软件缺陷预测,预测项目中哪些代码文件存在缺陷,帮助程序员识别缺陷代码。以上三类预测问题解决的是开源软件中紧密相关的三个关键研究问题。具体来说,在软件项目创建初期,软件参与推荐模型帮助程序员检索项目,加速项目成员组织过程;在项目开发阶段,软件变更预测模型帮助程序员合理分配开发资源,指导新项目成员开展工作;在项目维护阶段,软件缺陷预测模型指导程序员将测试资源集中用于缺陷文件,以此保障软件产品质量。论文的主要研究工作和创新点如下:（1）针对开源软件参与推荐问题,本文根据GitHub开源社区特点设计了9种软件项目特征,从不同角度表达程序员成功加入项目的行为模式。以这些特征为模型输入,提出了一个基于成列比较（list-wise）排序学习的开源软件参与推荐模型（Neural Network for List-wise Ranking,NNLRank）,通过其中的神经网络模型预测程序员对候选项目的喜爱程度,利用一个成列比较排序目标函数和随机梯度下降法优化模型参数。文中详述了模型优化的推导过程和执行步骤。本研究从GitHub映像数据库Ghtorrent上采样2044个成功加入项目决策信息及相关数据,以它们为研究对象验证了模型NNLRank的有效性和稳定性。实验结果表明,相较于三个现有排序模型SVMRank（Support Vector Machine for Ranking）、BPNet（Back Propagation Network）、SVM（Support Vector Machine）和现有项目预测模型LP（Link Prediction）,NNLRank模型显著提升了预测准确率。（2）针对软件变更预测问题,本文以源代码和变更日志为研究对象,提出了一个基于源项目选择的跨项目软件变更预测模型（Selective Cross-project Prediction,SCP）。该模型旨在解决现有模型的不稳定性问题,这是因为源项目（训练数据）和目标项目（测试数据）之间数据分布差异很大,从源项目学到的知识不能很好地用于预测目标项目中代码文件的变更性。在研究中,本文提出的数据选择策略直接度量两个项目之间数据分布特征距离,并使用了数据的标签信息,即文件变更性。其中目标项目中未知标签信息是通过一个轻量级无监督方法估计的。该模型利用Qualitas Corpus库中十四个开源软件变更数据进行了实证研究,并与现有最好变更预测模型CLAMI+（Clustering,Labeling,Metric selection,Instance selection plus）和三个相关模型RCP（Random Cross-project Prediction）、TCA+（Transfer Component Analysis plus）、TDS（Training Data Selection）进行了对比。实验结果表明SCP在预测准确度和成本效用上相较于对比模型都有很大提升。（3）针对软件缺陷预测问题,本文以源代码缺陷数据为研究对象,提出了一个基于迁移学习的两阶段跨项目缺陷预测模型（Two-Phase Transfer Learning,TPTL）。该模型旨在构建一个源项目估计器,为迁移学习模型TCA+选择两个源项目,且分别能提高模型预测的准确率和成本效用,并结合两个TCA+模型结果使得TPTL在预测准确率和成本效用上都有较好的结果,进而解决TCA+在跨项目缺陷预测中的不稳定性问题。该模型利用PROMISE库中四十二个开源项目缺陷数据集进行了实证研究。实验结果表明TPTL相较于现有最好缺陷预测模型LT（Log Transformation）,一种优秀的迁移学习模型Dycom,以及三个相关模型TCA+Rnd（随机使用一个源项目训练模型）、TCA+All（使用所有源项目数据训练模型）、以及TDS,模型TPTL能够显著提升缺陷预测的准确率和成本效用。本论文的工作针对开源软件中三个关键自动化决策问题,即项目检索、项目规划、缺陷检测,在现有学习模型的基础上进行改进,并提出了新的解决方案,提高了预测精度,为开源软件中三个预测问题提供更加准确的决策建议自动化工具,帮助程序员减少在决策中所浪费的时间和精力,进一步提高软件项目的开发进度、降低开发成本、提高软件质量。

其他文献

土木工程施工技术的重要性与创新

土木工程是人改造自然的主要手段之一,其目的是为了使人类拥有更加舒适的生活与工作环境。而土木工程本身作为建筑工程中的重要内容之一,也必将随着社会的发展面临更加具体而全面的施工要求,这就意味着土木工程施工技术的重要性必须得到重视,并以此为基础开展土木工程施工技术的创新活动。本文将围绕土木工程施工技术的重要性与创新展开探讨。

期刊

土木工程施工技术重要性创新

分数量子霍尔态中各向异性相变和准粒子隧穿幅的研究

量子霍尔效应是凝聚态物理中最重大的发现之一,在（2+1）维时空中它揭示出了非常多的令人惊奇的物理概念,包括准粒子的分数电荷激发,分数和非阿贝尔统计,新的物质分类方法（拓扑相）和手征边界态等等。目前的研究表明,在填充为5/2的分数量子霍尔态中存在非阿贝尓统计,它作为首要的候选系统为拓扑量子计算的实现提供了可能。近年来对分数量子霍尔效应的研究主要集中在具有旋转对称性的各向同性系统中,然而真实的分数量子

学位

偶极相互作用各向异性准粒子隧穿有限尺寸标度纠缠熵

省卫生健康委战“疫”党旗红党员当先锋

石家庄市、邢台市、廊坊市疫情发生以来,全省卫生健康系统各级党组织深入贯彻习近平总书记关于疫情防控工作重要指示精神,坚决落实党中央、国务院决策部署和省委、省政府部署要求,引领广大党员在大战大考中当先锋、作表率,确保疫情防控到哪里,党的组织就建设到哪里,党员作用就发挥到哪里,以坚强的组织保证,奋力夺取疫情防控歼灭战全面胜利。坚持闻令而动,迅速发出"集结号"。面对突发疫情,省卫生健康委党组快速响应

期刊

六阶半线性微分方程周期解和同宿轨道解的研究

许多数学、物理、生态学等学科产生的非线性方程问题都能归结为求相应微分方程的解,那么解的存在性就是一个不可回避的问题,研究的方法也有很多,其中重要的方法之一就是变分法,即求具有变分结构的微分方程的解可转化为去寻求相应泛函的临界点.最近几十年,在对该领域的研究中,人们结合飞速发展的大范围变分理论即临界点理论,已经取得了许多深刻的结果.本文利用变分法并结合临界点理论中的极大极小原理以及相关的山路引理研究

学位

六阶微分方程周期解同宿轨道解临界点变分法山路引理超二次条件

我该如何和父母相处

老师:你好!我是一名大一学生,最近有了一个很困扰的问题,压抑了我很久,我想知道我要怎么处理和父母的关系?我从小比较乖巧,即便青春期也没有叛逆过。在生活上父母对我一直也很照顾,可是现在我越来越难以忍受父母的唠叨,尤其我妈,经常否定我的言行,还总是喜欢把我和邻居或朋友家的姐妹们比较,心情不好就开始数落我,很小的事情也要上升到一定高度,总是说我不把她当回事。她越这样说我

期刊

软件仓库的主题挖掘及其在软件维护中的应用研究

在软件的演化过程中,会产生大量的软件开发与维护数据,最典型的数据类型即是文本型数据,如源代码、代码变更日志（Commit log）、Bug报告（Bug report）、软件文档及邮件记录等。这些数据广泛的存在于软件的各种仓库中,其中蕴含了丰富的软件开发经验与知识,可应用于不同的软件工程活动。主题模型技术,最早源于自然语言处理和信息检索领域,以其从文本中挖掘出语义特征的能力在软件工程研究中也得到了广

学位

软件仓库挖掘软件维护软件变更分类软件Bug分派主题模型

“抖音运营+直播带货”,服装服饰市场举办营销培训交流会

当后疫情时代遇上互联网时代,逐渐改变的消费习惯为线上直播发展提供了条件。为培育市场经营户数字营销理念,推动线上线下深度融合发展,进一步拓宽销售渠道,近日,中国轻纺城服装服饰市场成功举办"抖音营销直播培训交流会",吸引了诸多市场经营户踊跃参加。

期刊

培养学生安全意识和自我保护能力的有效策略

“安全第一”是教育教学工作的基本原则，初中生在思想认识、情感价值发展方面不够成熟，容易产生鲁莽冲动的行为，甚至导致出现严重的安全问题。培养初中学生安全意识和自我保护能力就显得十分必要。本文从培养学生安全意识和自我保护能力的重要性出发，结合初中安全教育实践探究策略，希望对提高安全教育效果，促进初中生安全健康成长有所助益。在义务教育阶段，安全教育是一项重要内容。一个人在成长过程中，由于自身安全意

期刊

祁漫塔格成矿带地质特征和成矿时空分布规律

祁漫塔格成矿带位于青藏高原北部，矿床类型复杂，成矿元素丰富，主要以元古代地层富集大量成矿物质及后期岩浆热液成矿为特征。矿床类型有云英岩型和石英脉型、矽卡岩型、斑岩型、沉积-改造型、岩浆熔离-贯入型矿床，主要金属元素为Fe,Cu,Pb,Zn,Mo,W,Sn,Au,Ni,REE等。该区矿床主要集中在晚志留—早泥盆世及中—晚三叠世时期。晚志留—早泥盆世与中酸性侵入岩有关的矿床发育于祁漫塔格西部伸展构造背

期刊

东昆仑祁漫塔格多金属矿床时空分布地球动力学背景

紧支撑正交小波的构造及小波理论在经济预测中的应用研究

自二十世纪八十年代以来,小波分析一直是各学科普遍关注的热点研究领域,其应用几乎涉及自然科学与工程技术的各个分支,目前小波分析已成为研究和解决自然科学与工程中许多复杂问题的强有力工具,本文对紧支撑正交的小波构造和小波理论在经济预测中的应用进行了一些探讨和研究。1.紧支撑正交小波的构造。由于紧支小波的重要性,许多人在此方面做了大量的工作,得到了许多相关的结论。本文在此基础上,对紧支撑正交小波的代数构造

学位

正交小波多分辨分析消失矩经济预测小波网络

开源软件中三类预测问题的学习模型研究

其他学术论文