【摘 要】
:
本体作为描述一个领域的术语集合,在构建领域知识图谱的工作中具有明显的优势,因此对领域本体概念抽取技术的研究具有重要的意义。在信息抽取的思想中,本体概念抽取可以通过命名实体识别技术来实现。作为信息抽取技术的子任务之一,命名实体识别技术已被广泛应用到各类自然语言处理任务中。随着深度学习的发展,神经网络已经应用到命名实体识别模型中并取得了较好的效果。但在中文领域实体识别任务,尤其是一些专业领域复合实体的
论文部分内容阅读
本体作为描述一个领域的术语集合,在构建领域知识图谱的工作中具有明显的优势,因此对领域本体概念抽取技术的研究具有重要的意义。在信息抽取的思想中,本体概念抽取可以通过命名实体识别技术来实现。作为信息抽取技术的子任务之一,命名实体识别技术已被广泛应用到各类自然语言处理任务中。随着深度学习的发展,神经网络已经应用到命名实体识别模型中并取得了较好的效果。但在中文领域实体识别任务,尤其是一些专业领域复合实体的识别上,现有的一些命名实体识别方法仍然存在精确度较差、效率较低的问题。针对这些问题,本文进行了以下的工作:(1)提出了一种包含门控机制的卷积神经网络(CNN)结合条件随机场(CRF)的模型用于命名实体识别任务。该模型主要由词向量训练与嵌入模块、门控CNN模块、CRF模块组成。在词向量训练与嵌入模块中,对文本数据集进行分词与标注处理,利用Word2vec工具将文本转为词向量并嵌入卷积神经网络;在门控CNN模块中,利用门控机制优化后的CNN来进行文本分类操作,得到上下文表示;最后通过CRF模块进行解码,得到最终的标注序列。在命名实体识别任务数据集上与传统模型进行了对比测试,本模型获得了微平均91.05%的准确率、89.93%的召回率、90.49%的F1值,验证了本模型在中文命名实体识别任务中的有效性。(2)在上述模型的基础上,本文针对中文领域复合实体识别难的问题,结合集成多卷积核的卷积神经网络(e-CNN)的思想,提出了一种门控集成CNN-CRF模型用于中文领域命名实体识别。在门控CNN模型的基础上,通过对卷积层设定不同大小的卷积窗口,将得到的特征信息集成后组成更丰富的信息,解决了由于实体边界划分不准确导致的复合实体识别难的问题。在中文医疗领域文本数据集上进行了测试,本模型获得了微平均87.90%的准确率、89.10%的召回率、88.50%的F1值,相比以往常用的基于LSTM的模型,在同一数据集上F1值有2.11%的提升,验证了模型在中文领域复合实体识别方面的优越性。
其他文献
阵列信号处理被广泛应用于雷达、声纳、无线通信、地质勘探等很多工程领域,是一个既有重大国家国防安全需求、又有多样性民用和民生价值的研究课题。波达方向(Direction of Arrival,DOA)估计是阵列信号处理中的一个基础且具有代表性的问题。现有很多DOA估计方法需要把外部入射信源数目已知作为先决条件,而实际中信源数目往往是未知的,因此研究信源数目未知条件下的DOA估计方法变得很有理论意义和
花青素是广泛存在于植物性食物中的水溶性天然色素,属黄酮类化合物。花青素是一种强有力的抗氧化剂,能够保护人体免受自由基等有害物质的损伤。但花青素易受到温度、光和p H
H型倾转旋翼无人机以其独特的气动布局,兼顾多旋翼无人机垂直起降和固定翼无人机高速前飞的能力于一身。但其复杂的运动状态也带来了更多的气动干扰问题。本文针对H型倾转旋
如何提高泵的效率和稳定性一直是离心泵研究中的重点和难点。低比转速离心泵由于流道狭长而加剧了圆盘摩擦损失和流道中液体扩散,导致性能较低;相比中、高比转速离心泵,更易
2010年开始,中国经济增速不断放缓,地方政府债务成为困扰中国经济持续健康发展的一个突出问题。地方政府财政压力不断增加,地方债务的非理性繁荣可能导致财政风险、金融风险、社会风险以及三者联动形成的系统性风险。2013年全国政府性债务审计报告显示,截至2013年6月底,全国地方政府性债务余额合计108859.17亿元,融资平台公司的政府性债务余额为40755.54亿元,融资平台的债务余额占2012年国
电动修复技术是应用前景较广阔的污染场地修复技术,为修复江苏某酸洗五金作坊废液污染地块的氯离子,本文选取污染地块现场氯离子超标的土壤和地下水为实验材料,模拟现场环境
2018年,在河套盆地吉华2井下白垩统固阳组和松5井渐新统临河组获得工业油流,该地区成为油气勘探的热点地区。但是,由于河套盆地的主体凹陷区下白垩统和渐新统现今埋深较大(600
主动避撞系统作为车辆主动安全必不可少的一部分,因其可以有效地减少碰撞事故,近年来受到了各大车企和研究机构的广泛关注。但是目前大部分主动避撞系统没有综合利用纵向制动
形状记忆聚合物是有别于形状记忆合金的一类新型形状记忆材料。目前,有关形状记忆聚合物的研究有很多,其中聚氨酯形状记忆聚合物是研究最热门的形状记忆材料之一;然而,目前的
VOCs的排放不仅能造成环境污染,而且对人体健康产生重大危害。等离子体协同催化技术比等离子体技术降解VOCs具有更高的降解效率、COx选择性以及抑制副产物产生的优势。在等离