基于知识图谱的众测报告融合系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:lwyhunter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,软件技术已经应用到生活中的方方面面,测试技术也层出不穷。众包测试指的是在互联网上开展的、在一个规定的时间周期内由雇主雇佣众包工人对指定目标进行测试并提交测试结果的测试方法。众包测试由于参加人数多、工人间缺乏沟通,具有报告重复率高、描述冗余的特点。众测中工人提交的报告不能直接进行交付,需要特定的人员识别重复报告、整理内容并生成最终的交付报告。为准确识别重复报告、提高报告整编效率,本文设计了基于知识图谱的众测报告融合系统。本文依托于众包测试平台,设计并实现了基于知识图谱的众测报告融合系统,创新性地构建众测知识图谱,挖掘报告文本描述间的语义联系。本文使用自然语言处理技术提取报告描述文本中的实体及关系,并引入分类知识图谱进行补充,使用翻译模型对知识图谱进行向量翻译,根据翻译后的向量计算缺陷报告实体相似度,将重复报告聚合在同一报告簇中。同时本文计算了报告中的图片特征用于辅助重复报告识别。其次,针对描述冗余问题,本文使用Page Rank算法计算报告在对应报告簇中的权重,提取报告簇中的主要报告,并将类簇中的报告拆解为文字或图片的单一补充项,提取出主报告中未描述到的内容生成补充点,本文还对报告描述文本进行识别,查看是否存在描述相悖的内容,针对描述相悖内容生成歧义点。本文首先将任务内的重复报告聚合成报告簇,然后将报告簇拆分成主要报告、描述补充点及描述歧义点,这使得缺陷报告的分类和信息获取更加高效,进而提高了整编人员的效率。本文主要划分为:知识图谱模块、知识图谱报告融合模块、图片计算模块和报告整编模块。为实现系统的高效访问,系统使用了Nginx进行负载均衡,使用Redis作为缓存,使用Thrift框架为跨语言模块之间提供高效通讯。为响应信创国产软件的号召,本文还针对国产操作系统进行可移植性适配。目前本系统已经在相关线上项目上得到应用,系统实现了众包测试重复缺陷报告识别,并对报告中关键观点进行了提取,这极大提高了整编人员识别重复报告和信息获取的效率,整编人员交付的报告的质量也得到了有效提升。
其他文献
随着产业互联网的高速发展,软件和互联网行业在近几年迎来了新的增长点。行业的发展加速了软件领域知识和技能的迭代,软件开发人员需要掌握大量的编程技能,当遇到编程相关的问题时,他们通常会通过搜索引擎在编程问答网站(例如Stack Overflow)上查找问题的答案。与通用领域的检索不同,软件领域的检索是高度专业化的,查询和文档内容中包含着专业术语和符号,这使得开发人员很难高效地定位他们想要的信息。为此,
综合管廊是一种可以容纳供水、通信、电力、燃气等多种市政管线的地下空间结构。由于综合管廊的高度标准化,预制拼装技术已成为综合管廊建设的新趋势和研究热点。对于采用分块预制拼装技术的综合管廊,接头是其薄弱部位,对变形非常敏感,也容易出现渗水漏水的情况,而国内外在分块式预制综合管廊接头力学与防水性能方面的研究较少。因此,本文基于武汉市武九线综合管廊工程项目,开展了分块式预制综合管廊接头抗弯刚度与防水密封垫
目前,我国大气污染有所改善,空气质量问题在一定程度上有所缓解,但是仍需要进一步解决,武汉城市圈也不例外。根据武汉城市圈独特的地理位置,大气复合污染以及空气本身的流动性、复杂性等因素,情景模拟是武汉城市圈空气质量改善的有效手段。同时,WebGIS(网络地理信息系统)具有强有力的空间表现力,常用于大气污染系统的开发中。因此,基于WebGIS开展污染物总量控制约束下情景模拟减排措施研究,为大气环境制约下
脓毒症由于发病机制复杂,常伴随多种并发症且病程发展迅速,给临床诊断和预后带来了极大的困难,已经成为世界第三大死因。寻找生物标志物以便提前识别脓毒症和及时治疗,是降低死亡率的关键。现有利用机器学习从大数据中找标志物的方法往往面临数据缺失,以及模型可解释性不足等问题。纳入全面的潜在危险因素,利用可解释性机器学习方法发现脓毒症早期生物标志物,具有重要的理论与临床意义。在收集整理武汉同济医院相关临床数据的
钯是铂族金属之一,由于其特殊的物理化学性能,被广泛地应用在石油化工、医药、电子电器、珠宝首饰等行业。然而钯的自然矿产稀少、储量有限,如何高效地从二次资源中回收钯,具有十分重要的研究意义。本文制备了一种耐酸性能好且吸附性能高的壳聚糖吸附材料(CS-A-B),对影响壳聚糖吸附材料耐酸性能的关键控制因素进行探究,从强酸溶液中吸附回收钯,通过静态吸附实验和表征分析对CS-A-B的耐酸性能、吸附性能、吸附解
随着医疗水平的不断提升,医疗企业的信息化管理的需求越来越急切,许多医院的信息化系统架构还采用着单体应用形式,比较陈旧和臃肿,系统内模块之间交错复杂,重构起来很消耗人力物力和时间,维护起来十分低效。同时当需要上线新的功能模块时,由于之前的系统耦合较严重,新模块如何接入成了一个严重的问题,极大地延误了系统的迭代和更新,效率低下,长期下去不利于医疗信息化的持续迭代和更新。系统基于降低系统耦合性,提高系统
学位
学位
目的:了解武汉地区婴幼儿过敏的发生情况,探讨婴儿期的食物多样性与2岁前湿疹,哮喘等过敏性疾病和过敏反应发生风险的关系。对象与方法:本研究采用前瞻性队列研究的方法,在同济母婴健康队列(Tongji Maternal and Child Health Cohort,TMCHC)的基础上选取分娩日期为2015年1月~2016年12月的孕妇,在婴幼儿出生后、3月龄、6月龄、1岁及2岁进行母婴健康随访。根据
目的:这项横断面研究旨在分析低中度氟暴露与儿童血清炎症水平之间的关联,并进一步探讨炎症指标在氟暴露与氟斑牙(Dental fluorosis,DF)患病风险关联中的中介作用。方法:采用按地区分层多阶段随机抽样方法,从天津市氟病区和非氟病区随机抽取593名7~13岁学龄儿童作为研究对象。儿童及其父母的一般社会学资料通过问卷调查的方法收集,同时由专业医生对儿童的DF患病情况进行诊断。采集饮用水样、儿童