【摘 要】
:
在软件的演化过程中,会产生大量的软件开发与维护数据,最典型的数据类型即是文本型数据,如源代码、代码变更日志(Commit log)、Bug报告(Bug report)、软件文档及邮件记录等。这些数据广泛的存在于软件的各种仓库中,其中蕴含了丰富的软件开发经验与知识,可应用于不同的软件工程活动。主题模型技术,最早源于自然语言处理和信息检索领域,以其从文本中挖掘出语义特征的能力在软件工程研究中也得到了广
论文部分内容阅读
在软件的演化过程中,会产生大量的软件开发与维护数据,最典型的数据类型即是文本型数据,如源代码、代码变更日志(Commit log)、Bug报告(Bug report)、软件文档及邮件记录等。这些数据广泛的存在于软件的各种仓库中,其中蕴含了丰富的软件开发经验与知识,可应用于不同的软件工程活动。主题模型技术,最早源于自然语言处理和信息检索领域,以其从文本中挖掘出语义特征的能力在软件工程研究中也得到了广泛应用。如何利用主题模型从上述软件仓库中挖掘出蕴含的软件开发经验和知识在近年来一直广受软件工程研究者们的关注。随着软件开发技术、开发模式的不断变化,软件需求和业务复杂度不断提升,软件维护在软件开发与演化过程中的重要性日益凸显。本文关注与软件维护联系最紧密的三类软件文本型数据:源代码、变更日志和Bug报告,从如何更好的利用主题模型技术挖掘出语义特征入手,着重解决软件维护过程中的三大研究问题:软件变更分类、软件Bug分派和软件可维护性评估。论文的主要研究工作和创新点如下:(1)在现有软件仓库中的文本挖掘工作中,最常用的是主题模型技术,本文针对现有主题模型的主题个数的难于选取、主题难于解释及无法引入文档类别标签问题的缺点,在原始概率潜在语义分析模型(PLSA)的基础上,提出了判别概率潜在语义分析模型(DPSLA),具体来讲,本部分工作设计了一种有监督的模型初始化方法取代原始PLSA中的随机初始化方法,由此,使得所生成的主题更具有判别性,该模型弥补了原始主题模型在软件仓库挖掘问题中的不足,能更好的挖掘出文本的语义特征。本部分工作给出了该算法的详细过程和理论推导。(2)针对软件变更分类问题,本文利用工作(1)中所提出的DPLSA模型,以软件变更日志为研究对象,提出一个基于DPSLA的软件变更分类方法,通过模型训练能自动化学习出语义显著型单词与软件变更类别之间的概率关系,从而取代传统方法需要依靠经验值来赋予单词权重的方式,此外,该方法区别于现有分类方法在于其能分类多类软件变更及跨项目分类的能力。本部分工作详细阐述了该分类模型的建模过程,并在五个开源项目(Bugzilla,Wireshark,Boost,Firebird和Python)上展开了实证研究,并详细介绍了实证研究的设计、研究问题及评价方法;最后给出了实验结果与分析。结果表明,该方法较现有工作中的四种方法s LDA,First key,Na?ve bayes和L-LDA均有一定的提升。(3)针对软件Bug组件分派问题,本文以Bug报告为研究对象,利用工作(1)中所提出的DPLSA模型,结合Jensen-Shannon divergence,提出了一种名为DPLSA-JS的Bug组件分派模型,该模型区别于现有基于LDA的分派方法在于其在主题建模步骤引入了Bug的组件类别标签,使得所生成的主题更具有判别能力,从而达到更准确分派的结果。本文详细阐述了该分派模型的构建过程并在五个项目上(Platform,Bugzilla,Mylyn,Gcc和Firefox)展开了实证研究,并详细介绍了实证研究的数据集与预处理,实验设计、研究问题及评价方法;最后给出了实验结果与分析。结果表明,该方法较现有LDA-KL和LDA-SVM方法均有较明显的提升。(4)针对软件可维护性评估问题,本文以软件源代码为研究对象,利用工作(1)中所提出的DPLSA方法,提出了一种概率化的软件可维护性评估模型,该模型区别于现有基于加权求和的方法在于其能自动化的从Benchmark中学习出软件源代码、度量元与质量特征之间的概率关系。本部分工作详细阐述了该模型的的构建过程,并在10个开源项目上展开了实证研究,详细介绍了实证研究的数据集与预处理,实验设计、研究问题及评价方法;最后给出了实验结果与分析。结果表明,该方法较现有AWLE方法能更准确的评估软件的可维护性。本论文的工作面向软件仓库中的文本型数据,基于主题模型技术,针对软件维护中的三大研究问题:软件变更分类,软件Bug分派和软件可维护性评估。从现有方法的局限性出发,提出了新的模型,达到了提高模型准确程度的目的,为软件的维护和演化提供了更精准的决策建议。
其他文献
深度教学在建立知识关联、达成知识迁移、促进自觉学习等方面起着重要而积极的作用。在深度教学背景下,教师不仅要关注学生获得了多少数学知识,更要遵循数学知识的内在逻辑和学生认知的规律,通过探究深度问题、启发深度思考、引导深度建构,促成学生的深度学习。
粤港澳大湾区加工贸易转型升级的关键在于人才,加工贸易行业以其实体经济、技术操作、人力密集型等特点,长期以来都是高职院校学生的优先选择。高职人才具备适应行业企业发展需求的职业能力,对粤港澳大湾区加工贸易转型升级具有重要意义。但是从企业生产经营的角度和学校培养角度看,对高职人才的职业能力需求认知存在一定的偏差,通过对这些偏差的研究,既有利于高职院校有针对性地开展人才培养,又可助力粤港澳大湾区加工贸易转
医疗中的沟通问题是世界公共卫生面临的重要挑战。医护人员、患者以及患者家属等不同主体间的沟通质量直接关系到患者治疗、医疗服务的质量与健康结果。随着科技进步,3D打印技术顺应了“互联网+”医疗健康、数字医患沟通以及个性化医疗服务趋势,其可触、可感的物理样态能够发挥医疗信息实体化的特殊优势、参与到现实空间互动中,成功融入医疗沟通语境。随着3D打印技术的融合应用,其衍生出了一个有趣的应用分支——作为沟通中
二十世纪七八十年代,人们在研究具有四阶色散的光纤的脉冲传播时建立了广义非线性薛定谔方程并考虑其形如w(t,x)=u(t)eikx,k∈R的解,则方程可转化为近二十年来,人们利用临界点理论研究上述类型的四阶非线性微分方程已经取得了很多很好的成果(文献[8]一[14]).本文主要研究更一般的四阶非线性常微分方程周期解的存在性.其中A,B为常数,f(x,0)=0,令满足全局Costa型非二次条件:(F1
每天早上6点多,佛山顺德的一个车站总会聚集一群等待“老板”的人。“老板”的车一来,他们会迅速涌到车窗边,一旦谈妥价格、工作就立马上车走人。但车什么时候来就像天上的雨一样难以预测。可以确定的是,到了7点左右,佛山某家电厂的班车就会载着上完夜班的工人回来,停靠在这个站点。工人们穿着统一的制服,神情疲惫,与车站边聚集着找散工的人群擦肩而过。
土木工程是人改造自然的主要手段之一,其目的是为了使人类拥有更加舒适的生活与工作环境。而土木工程本身作为建筑工程中的重要内容之一,也必将随着社会的发展面临更加具体而全面的施工要求,这就意味着土木工程施工技术的重要性必须得到重视,并以此为基础开展土木工程施工技术的创新活动。本文将围绕土木工程施工技术的重要性与创新展开探讨。
量子霍尔效应是凝聚态物理中最重大的发现之一,在(2+1)维时空中它揭示出了非常多的令人惊奇的物理概念,包括准粒子的分数电荷激发,分数和非阿贝尔统计,新的物质分类方法(拓扑相)和手征边界态等等。目前的研究表明,在填充为5/2的分数量子霍尔态中存在非阿贝尓统计,它作为首要的候选系统为拓扑量子计算的实现提供了可能。近年来对分数量子霍尔效应的研究主要集中在具有旋转对称性的各向同性系统中,然而真实的分数量子
石家庄市、邢台市、廊坊市疫情发生以来,全省卫生健康系统各级党组织深入贯彻习近平总书记关于疫情防控工作重要指示精神,坚决落实党中央、国务院决策部署和省委、省政府部署要求,引领广大党员在大战大考中当先锋、作表率,确保疫情防控到哪里,党的组织就建设到哪里,党员作用就发挥到哪里,以坚强的组织保证,奋力夺取疫情防控歼灭战全面胜利。坚持闻令而动,迅速发出"集结号"。面对突发疫情,省卫生健康委党组快速响应
许多数学、物理、生态学等学科产生的非线性方程问题都能归结为求相应微分方程的解,那么解的存在性就是一个不可回避的问题,研究的方法也有很多,其中重要的方法之一就是变分法,即求具有变分结构的微分方程的解可转化为去寻求相应泛函的临界点.最近几十年,在对该领域的研究中,人们结合飞速发展的大范围变分理论即临界点理论,已经取得了许多深刻的结果.本文利用变分法并结合临界点理论中的极大极小原理以及相关的山路引理研究
老师:你好!我是一名大一学生,最近有了一个很困扰的问题,压抑了我很久,我想知道我要怎么处理和父母的关系?我从小比较乖巧,即便青春期也没有叛逆过。在生活上父母对我一直也很照顾,可是现在我越来越难以忍受父母的唠叨,尤其我妈,经常否定我的言行,还总是喜欢把我和邻居或朋友家的姐妹们比较,心情不好就开始数落我,很小的事情也要上升到一定高度,总是说我不把她当回事。她越这样说我