面向程序设计领域的新词检测算法研究与应用

来源 :东华大学 | 被引量 : 0次 | 上传用户:sjh_qj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量的程序设计领域文本,存在大量的领域词语。jieba分词用于通用领域,已经取得较好的效果。但是,由于部分程序设计领域词语没有在分词词典中出现,因此,jieba分词用于程序设计领域的分词结果的准确性不高。如果能使用新词检测算法从领域文本中检测出这些领域词语,就可以扩充专业词库,从而提高程序设计领域的中文分词效果。同时,离散化的领域词语通过知识图谱的方式组织起来,可以帮助程序设计的学习者进行更加高效系统的学习。关于新词检测的研究,目前常用的有监督方法需要大量标注数据,而无监督方法往往准确率较低,都难以达到较好的效果。因此,本文针对面向程序设计领域的新词检测算法进行了研究,主要研究工作和成果如下:首先,构建了程序设计解题报告语料库。本文利用网络爬虫技术从博客、社区等网站爬取解题报告,针对本文的新词检测任务进行数据预处理操作,解决目前程序设计领域缺乏文本规范的公开数据集的问题。为推动关于程序设计领域相关任务的研究,本文将解题报告公开。其次,对目前几种较为常用的新词检测算法进行探讨,针对基于统计的方法和基于词向量的方法结果中垃圾词串过多的问题,提出基于统计和词向量相结合的方法,该方法在新词检测的准确率方面得到了一定的提高。实验结果表明,该方法对于一类很少出现在其他领域,却经常在程序设计领域出现的词的检测效果较好,但对于另一类在其他领域也会出现,在程序设计领域有特殊意义的词的检测效果很差。针对第二类领域词,目前的短语质量评估方法(Class Phrase)可以有效检测出来,从而解决了基于统计和词向量相结合的方法的缺陷。不过当标签质量较差时,Class Phrase方法也难以训练出有效的模型。为了提高标签质量,本文提出根据现有的专业词库,使用远程监督的方法生成分类模型训练的标签的方法。实验结果表明,本文的方法取得较好的效果。然后,本文对专业词库、爬虫技术爬取的词语释义及题目的题号等信息加以整理,通过知识图谱的方式将信息组织起来,再将使用新词检测算法检测出的领域新词用于扩充知识图谱,用Neo4j图数据库进行存储。最后,实现了程序设计新词检测及查询系统,针对不同的用户身份设置不同的功能,主要功能包括上传自定义文件实现新词检测和知识图谱的扩充及查询。
其他文献
随着医院信息化建设的不断完善,电子病历系统的使用也越来越普遍,由此积累了大量的医疗数据资源。出院小结现病史是这些医疗数据资源的重要组成部分之一,记录了住院患者的健康状况以及诊疗过程,蕴含着丰富的医学知识。然而,出院小结现病史是一种非结构化的叙述性医疗文本,很难直接应用机器学习或深度学习模型进行数据挖掘与分析,在一定程度上阻碍了医疗数据的再次利用。因此,对出院小结现病史进行结构化处理,有助于发掘数据
基于多视角图像的三维重建技术是计算机视觉领域的一个重要的研究方向,该技术在文物保护、场景模拟、医学治疗、人体测量等领域中有着重要的应用价值。随着数字图像处理与三维重建技术的快速发展,人们对三维模型的完整度和细节化的要求越来越高。针对这个实际应用问题,本文针对人体三维重建的相关技术展开了研究,本文主要工作包括:(1)首先本文利用智能手机获取多视角人物图像序列,由于本文的研究目标是对人体进行三维重建,
椭圆是自然界最常见的几何形状之一,现实中的许多物体都具有椭圆的几何特征。在计算机视觉领域,椭圆检测一直是一项基础、重要的任务。在实际应用中,目前的椭圆检测算法还面临着许多问题,例如漏检小椭圆、复杂背景下的目标检测结果中会出现重复椭圆、检测速度不够快难以在线应用等。针对这些问题,本文提出了基于弧段提取的椭圆检测算法,该算法用双阈值从图像边缘中提取出椭圆弧段,将不同类别的三段弧组成三元组,三元组受到弧
回归缺陷指在程序的开发过程中,由于开发或维护人员错误的修改导致正常的工作的程序功能无法正常运行。研究人员们提出了多种回归缺陷定位技术,但很少有研究工作用于定位多线程环境下的并发回归缺陷。并发回归缺陷研究的一个主要的挑战是社区缺乏用于实验的并发回归数据集。为了促进并发回归缺陷领域的研究,并提供一个有效的研究评价基准,本文主要完成了以下工作:(1)基准项目调研。调研了并发和回归缺陷领域的优秀成果,统计
随着移动互联网的快速发展,在线社交成为人与人之间交流的一种重要方式。尤其是在最近的几年,凭借着庞大的用户群体,微博、Twitter、Facebook等社交网络平台获得了巨大的商业价值,但是为平台作出贡献的活跃用户及优质内容的发布者却未得到应有的收益。此外,在传统的网络社交平台中,用户在平台上产生的数据都由中心服务器进行存储,平台可以获取用户的所有信息,这种中心化的数据存储方式,存在着用户信息泄露和
可达性查询处理是图数据管理与分析的基本操作之一,一直以来都是研究者广泛关注的热点问题。现有方法通常使用树区间或者基于部分结点的2hop标签来加速查询处理的速度。实际应用中,这种加速查询处理的方法存在两方面的问题。一是在给定特定数据图的前提下,没有人研究应该使用哪种索引比较合适;二是即使使用了树区间或者基于部分结点的2hop标签,也没有人研究应该使用多少个区间或者使用多少个结点来构建2hop标签才合
k步可达查询处理在现实世界中有着广泛的应用,例如好友推荐、交通线路查询、网络路由等。k步可达查询用于回答两个顶点之间是否存在一条长度不超过k的路径。相较于传统的可达性查询,k步可达查询可以提供更多的信息。然而,现有的k步可达查询算法大多只能应用在有向无环图上。能应用于带环有向图的k步可达查询算法又存在索引规模大,索引构建时间长以及查询效率低等诸多问题。本文研究带环有向图上的k步可达查询处理问题,研
在企业信息系统相关的软件开发项目中,软件需求的相关工作贯穿着整个软件开发生命周期的始末。需求开发的质量和需求管理的效率对于每个软件开发项目是否成功有着直接的影响。本文首先介绍了软件需求的概念及其在软件开发项目中的作用。其次,本文以软件项目管理中的需求过程为研究对象,对国内外需求工程的现状加以了解,对需求开发和需求管理的理论做了整理,对需求工作中的常见问题加以总结,并着重分析了质量管理五要素之一的“
乳腺癌作为常见癌症之一,时时刻刻威胁着女性的健康。核磁共振检查作为乳腺癌最常见的影像筛查技术之一,对乳腺癌的早期筛查有着重要的意义。随着影像学技术的高速发展和迅速地迭代更新,磁共振弥散加权(DWI)、动态增强磁共振(DCE-MRI)、磁共振波谱分析等成像技术频繁地应用在乳腺癌的临床筛查中,为乳腺癌患者临床诊断的各个阶段带来了福音。目前许多研究人员研究多模态的医学影像融合技术,通过结合多种模态下的医
对于集成了众多处理器核心的众核处理器平台来说,无论是充分发挥其并行计算能力,亦或是有效提升其生命期可靠性,都需要合适的众核基础软件工具加以支撑。基于这种需求,本文在研究并设计出相关众核软件映射算法的基础上,实现了一款众核软件映射工具。本论文的具体工作如下:(1)基于动态规划思想,设计出了一个吞吐率单目标优化的映射算法。本算法在任务分配过程中通过动态调整任务子图负载的期望值,有效地改善了由于结点的颗