【摘 要】
:
互联网技术的蓬勃发展使得信息数据量呈指数爆炸型增长,如何准确地从海量文本中获取到有效信息以及如何将非结构化数据转换成结构化数据成为研究热点和难点,命名实体识别是其中的一项基础研究。命名实体识别旨在从自然语言文本中识别并提取出特定命名实体,以便进行后续自然语言理解和生成任务。传统的命名实体识别任务基于中文分词进行,分词错误会延续整个任务过程,错误传播会导致识别性能下降,模型难以充分提取长语句序列中潜
论文部分内容阅读
互联网技术的蓬勃发展使得信息数据量呈指数爆炸型增长,如何准确地从海量文本中获取到有效信息以及如何将非结构化数据转换成结构化数据成为研究热点和难点,命名实体识别是其中的一项基础研究。命名实体识别旨在从自然语言文本中识别并提取出特定命名实体,以便进行后续自然语言理解和生成任务。传统的命名实体识别任务基于中文分词进行,分词错误会延续整个任务过程,错误传播会导致识别性能下降,模型难以充分提取长语句序列中潜在的语义信息。深度学习的出现为命名实体识别技术的研究提供了新的工具,论文基于长短期记忆网络(Long Short-Term Memory,LSTM),研究了远距离文本下的中文命名实体识别技术,并在核电领域数据下进行优化。论文的研究内容和主要创新点如下:针对远距离文本信息提取性能不佳的问题,论文提出了一种基于注意力机制和网格LSTM的命名实体识别算法。该算法利用网格LSTM网络引入词信息,有效解决了因中文分词错误所引起的词边界错误传播问题;由于LSTM网络的链式结构不能充分利用语句序列的全局信息,而且对于远距离文本信息的特征提取性能会随着距离的增加而弱化,论文在网格LSTM网络中引入了注意力机制,获取字信息的内在关联和远距离语义信息;此外,论文对模型进行了调参优化。在多个数据集上的实验结果表明,所提出的算法相对于参考算法F1值提高了0.48%-1.11%,提升了识别性能。进一步地,论文研究了特定领域的命名实体识别问题,设计了一种基于LSTM-CRF(Conditional Random Fields,CRF)的核电领域命名实体识别算法。针对核电领域语料资源匮乏问题,构建了核电领域数据集,完成了核电语料的数据清洗和标注工作;针对核电数据集命名实体嵌套较为严重的问题,论文通过设计字符的单一候选词路径,为LSTM网络的训练提供了有效词信息,同时加快了网络的训练过程。该算法在论文构建的核电领域数据集上相对于参考算法F1值提高了0.37%,提升了识别性能。
其他文献
近年来,工业机器人在工业生产中的应用越来越多,因此对工业机器人相关人才的需求呈爆炸式增长,导致了工业机器人领域的高端技能型人才变得供不应求,人才培养面临严峻挑战。本文基于Unity3D虚拟现实引擎和Qt5开发平台,结合职业教育相关理念,开发出一款基于示教器的工业机器人运动控制仿真系统,从使用者角度出发,实现其操作示教器以控制虚拟环境中机器人实时运动的体验真实感。首先,对ABB工业机器人进行运动学轨
可见光图像符合人眼视觉特性,而红外图像能够体现场景温度信息,二者的成像谱段和原理不同,但都具有重要应用价值。传统建模的红外图像仿真方法精度较低且建模复杂,而可见光的图像资源丰富,因此本文研究一种从可见光图像直接转换至红外仿真图像的方法,具有高效率、低成本、高精度的特点。本文的主要工作如下:(1)提出一种两级轻量多尺度信息融合生成对抗网络,采用“由粗到细”的两级网络结构,能够实现可见光与红外图像的特
自动精确分割病理图像中的细胞核在癌症诊断中起着重要作用。针对病理图像中细胞核大小差异较大从而导致细胞核分割结果不准确的问题,本文提出了一种基于Mask R-CNN的大小自适应细胞核自动分割新方法。该方法分三步,首先对病理图像进行预分割,然后通过预分割的结果把该病理图像分到预先设定好的某一类,最后使用对应类的训练好的模型对病理图像再次分割,得到最终的细胞核分割结果。其中,对应类的模型是使用分类后的训
当前,物联网正在深刻改变人们生产生活、社会管理和公共服务,呈加速发展的态势,物联网所承载的用户数据也日益庞大。因此,如何保护物联网的网络信息安全一直以来是研究者们十分关注的问题。物联网节点设备因体积小、功耗小且常分布在无人值守的角落的特点,使得其成为攻击者控制网络的主要入口。对于物联网感知层设备来说,节点捕获攻击是其最容易受到的威胁之一,过去的几十年信息安全技术发展迅猛,越来越多防范节点捕获攻击的
随着信息技术的高速发展,5G技术已经步入了商业化的进程,信息过载问题愈发凸显。推荐系统的出现很大程度上缓解了信息过载问题,现做为一种基础技术应用于电影、电商、新闻和自媒体等行业。电影作为一种主流的休闲娱乐方式深受人们喜爱,影视行业的快速发展,已经积累了大量的影视资源,每部影片都各具特色,观众的偏好各不相同,如何找到符合自己偏好的电影成为一大难题。随着机器学习和深度学习在推荐系统领域的不断发展,推荐
物联网接入的采集设备快速发展,数据安全变得更加重要。位于数据来源原始位置的传感器节点,由于是数据源头而且节点的计算能力及电量存储有限,常常面临着各种攻击的危险。数据聚合作为一种可以有效改善存在问题的途径,可以在减少无线传感器网络传输能量开销的同时尽力保证网络的安全,是一种网络性能最优化的方法。本文主要研究内容如下:设计了一种多元数据协同加密聚合方法。首先通过对隐私保护数据聚合方案的分析,找到了已有
区块链(Block chain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链是一个对外界透明信息的封闭系统,任何外部逻辑都无法对上链数据进行操作,唯一可以为区块链添加数据的节点,或者接口,就是预言机(Oracles Machines)。预言机是通过共识机制产生出来的特殊节点,它负责上链请求的排序、上链过程的模拟,以及为智能合约输送数据。如,以太坊的Chain
随着各类可穿戴设备的广泛推广,有低功耗的需求的电子产品逐渐增多,因此如何降低开关电源管理芯片的功耗成为热点研究领域。高集成度低功耗的开关电源管理芯片具有很高的理论和商用价值。本文首先对DC-DC的峰值电流模和电压模进行了小信号建模。根据推导出的传递函数计算了功率级的零点和极点。使用Matchcad对所建立的小信号模型进行了波特图绘制,并设计了补偿电路。接着详细分析了带隙基准、电流偏置电路、峰值电流
在图像生成领域,人脸老化是一个重要的研究方向,该任务在跨年龄识别研究领域以及当前社会泛娱乐应用上都有非常高的使用价值。不过,该任务目前仍旧存在各种困难。这些困难包括:构建数据集的过程中缺乏同一人在较长的年龄范围内的标签化人脸图像、面向该任务的深度学习网络难以训练以及生成图像与原人脸图像的身份信息难以保留等。本文的主要目标是在确保跨年龄人脸生成任务完好完成的情况下,更有效的保留人脸本身的身份信息。基
近年来,大型钢结构模块化技术在我国得到应用,但是石化钢框架模块化技术研究相对较少,缺少相应技术标准,本文结合某裂解炉结构对石化钢框架进行了模块划分、运输和吊装方面的模块化性能研究。(1)结合模块划分理论研究确定石化钢框架模块划分方法,建立了满足结构功能性、整体框架稳定性、项目成本经济性、运输施工合理性、安装就位易操作性等条件下的划分标准。根据裂解炉工艺特点和结构功能要求,确定了炉体模块、辐射模块、