【摘 要】
:
近几年,随着软件规模迅速扩大和软件更新频率不断加快,程序开发者面临愈来愈大的开发与维护压力。在软件开发与维护过程中,快速理解相关源代码是程序开发人员进行代码修改的前提。与自然语言相比,程序具有体量大、强结构性、抽象性等特点,这些都会造成程序理解困难。代码自动摘要技术可自动总结相关代码功能,输出简洁而准确的自然语言描述,在帮助程序开发者正确理解源代码的同时提高软件开发与维护效率。当前,代码自动摘要技
论文部分内容阅读
近几年,随着软件规模迅速扩大和软件更新频率不断加快,程序开发者面临愈来愈大的开发与维护压力。在软件开发与维护过程中,快速理解相关源代码是程序开发人员进行代码修改的前提。与自然语言相比,程序具有体量大、强结构性、抽象性等特点,这些都会造成程序理解困难。代码自动摘要技术可自动总结相关代码功能,输出简洁而准确的自然语言描述,在帮助程序开发者正确理解源代码的同时提高软件开发与维护效率。当前,代码自动摘要技术可分为基于模板,基于信息检索和基于深度学习三种主要类别。其中,基于模板的代码自动摘要技术依赖于事先定义规则或模板,耗时耗力,且当函数名,自定义标识符命名不规范时难以得到有效摘要;基于信息检索的代码自动摘要技术借助开发人员的先验知识且在摘要生成过程中很少考虑到程序的结构信息;与之类比,基于深度学习的代码自动摘要技术可根据已有数据自动学习程序结构特征且具有可扩展性,近年来逐渐受到研究者的青睐。然而,当前基于深度学习的代码自动摘要技术不足在于:(1)代码中的API信息对程序语义表达很重要且API之间的调用依赖更适宜表达为图结构,现有技术极少考虑这种信息并进行相应的图建模;(2)代码是语法和语义的混合结构,当前技术在对程序单一特征或多模态特征建模过程中忽略了代码语义与语法结构之间的关联性;(3)由于程序作用域会增加依赖间隔,现有技术大多通过Seq2Seq的序列化解码方式,在捕捉程序长依赖方面具有一定局限性。为解决上述问题,本文开展了一系列研究,主要包括以下三个方面:(1)针对代码API信息图建模问题,本文提出了一种局部API调用依赖图(LocalADG)的代码语义图建模方法,以提升对代码语义的表征能力。Local-ADG会提取单个代码片段中的API信息,并根据API之间的调用依赖关系和输入输出参数构建图表示。Local-ADG扩展了程序语义表达方式,可有效表达代码语义知识,提升程序语义表征能力。(2)针对程序特征知识提取过程中未能考虑代码语义与语法结构之间的关联性问题,本文提出了基于相似网络的多模态程序结构特征融合方法和基于注意力机制的多模态程序结构特征融合方法。有效提取了程序语义和语法之间的关联性知识,对整体程序特征表达更全面,可有效提升摘要信息的鲁棒性。(3)针对程序作用域引发的长依赖问题,本文提出了基于Transformer的程序学习模型。Transformer完全依赖于注意力机制对输入输出的全局依赖关系进行建模。可有效捕捉长依赖关系且更具有可解释性,减轻网络的记忆负担,提高自然语言摘要的准确性。
其他文献
<正>前言2022年8月21日,《中国招标》杂志社举办了第二届招标采购前沿论坛。来自全国各地的近200位专家学者、招标采购从业人员和招标采购行政监督人员与会。本人有幸连续两年参加该论坛,并作主旨发言。在今年的论坛上,本人作了“修订后的《政府采购法》对采购方式的创新”的主旨发言。现将发言内容呈现给读者,欢迎批评指正。
[目的]为了解北疆某牧场奶牛隐性乳房炎情况及分析其可能存在的风险因素。[方法]2020年1月至2022年9月通过加州乳房炎检测法(CMT)对该牧场在群泌乳牛进行隐性乳房炎调查,并初步分析该场可能存在的主要风险因素。[结果]该牧场2020—2022年各年奶牛隐性乳房炎平均阳性率分别为3.69%(110/2980)、5.01%(150/2 993)和3.87%(86/2 220);乳区阳性率分别为0.
<正>(2022年8月12日)尊敬的杨洁司长、于文涛副司长、李威总经理,各位代表:大家下午好!2017年,中国招标投标协会(以下简称中招协)首次搭建央企会员单位交流平台,今年的会议是该平台的第六次交流活动。平台的交流活动受到了大家的重视和欢迎,杨洁司长连续两年亲自出席交流会并作重要讲话,说明了国家部委对我们央企采购活动研讨的重视。刚才杨洁司长在会上作了重要讲话,
自身免疫性脑炎(autoimmune encephalitis,AE)是机体免疫系统对神经元抗原的反应所致的神经系统疾病,并且该病逐渐被认为是非感染性因素致可逆转性脑炎的重要原因。在临床实践中,对以症状表现为急性或亚急性起病的认知功能障碍、精神行为异常、癫痫发作的患者,临床医生通常会考虑到自身免疫性脑炎的诊断。若不能及早明确诊断,常会延误治疗,导致高致残率与高致死率。随着对AE的重视以及对其发病机
伴随着世界范围内航空运输业的发展,催生了“代码共享”航班运营模式,即一家承运人通过协议在航班上使用其他航空公司代码,或两家承运人通过协议在同一航班上共享同一航空公司代码,因此,某个架次航班上的乘客,所买的票可能来自多家航司。目前,代码共享的运行模式已成为全球航空运输业内最流行的合作方式。代码共享航班信息的管理,是一个涉及多个航司航班信息的分布式系统。然而由于没有一个集中控制、双方互认的权威机构做认
随着计算机技术和大规模在线教育的发展,计算机程序设计课程的无纸化考试得到了广泛的发展,计算机自动评测的优势也日益明显。相比于传统考试,计算机自动评测不仅可以减少巨大的财力和人力的消耗,还能避免在人工阅卷过程中由于人的主观原因造成的误评分。目前,基于客观题的自动检测技术已经相当成熟,主观题的检测方法也有了一定的发展。本文主要的研究内容是程序设计语言编程题的检测方法,从编程题的查重到自动评分技术进行了
作为一个人类,我们的生活和衣食住行息息相关。而"住"对于现在的人们来说,占据着最主要的经济支出。尤其是一线城市的房价,近些年增长十分迅猛,可以不夸张地说,房价的变动深深地影响着人们的心。而从另一个角度来说,作为国民经济支柱性企业的房地产行业,想要在这个机遇和挑战都很大的时代下生存发展,必须要具备一定的核心竞争力和企业优势。从收集到的信息中看,自2015年以来,房地产行业之前持续的低糜趋势,很难一时
构建一套以物资信息共享、业务协同、调度配送、中石油驻疆企业区域协同共享为核心目标的物资信息共享服务系统:项目启动前充分调研新疆油田公司涉及生产、物资采购、物资仓储、物流调度、物资签收和结算等物资供应链全流程业务及相关信息系统现状,分析、汇总、整理业务提升需求。
<正>广东力生智能有限公司(简称力生智能)是一家坐落于华南重镇虎门的知名物流设备集成商,自2003年成立以来,致力于推广工业信息化及自动化技术,打造智能化、无人化的智慧工厂。公司具备自主设计、规划、安装及调试的能力,主营整厂物流输送、无人化包装、工业机器人集成、立体化仓库四大系列设备。目前已在香港、深圳、越南、河南、苏州、厦门等地设立分公司,并拥有500人左右的专业化集成服务团队。