多特征融合的片段级新能源汽车命名实体识别

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:luo311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新能源汽车命名实体识别旨在帮助市场和社会更好地定位新能源汽车发展方向,更好的发挥领域文本对技术革新的推动作用。中文文本存在较多歧义,实体识别易受分词错误影响,并且新能源汽车存在实体边界模糊、词长多变、未登录词丰富、现存标注语料较少等问题,给新能源汽车命名实体识别带来很大的困难。目前,新能源汽车命名实体识别大多基于统计和领域知识的方法,将实体识别看作序列标注问题,利用条件随机场等机器学习方法完成序列标注。一方面需要人工提取特征,耗时耗力,且提取的特征质量参差不齐,另一方面存在依赖局部标记区分实体边界的局限,无法摆脱分词错误和实体边界模糊的影响,导致识别效果不佳。为了提升新能源汽车实体识别效果,本文从文本特征、实体识别模型和模型训练过程三个方面提出了改进思路。(1)在文本特征方面,使用深度神经网络融合字、词以及外部特征。字特征的引入,避免了未登录词特征向量退化成零向量,缓解了未登录词丰富带来的困难;进一步引入了词性、位置、词典等简单人工特征,改善了实体内部结构复杂、实体嵌套等问题。(2)实体识别模型方面,针对新能源汽车命名实体边界模糊、词长多变的现状,使用半马尔可夫条件随机场替代传统序列标注模型中的条件随机场,融合片段特征,同时完成片段切分和实体识别,突破了使用局部标记划分实体边界的局限,提升了识别效果;此外,引入片段整体和外部特征,进一步完善了片段特征。(3)在模型训练过程中引入主动学习,并提出了一种基于不确定性和信息分布度相结合的主动学习采样策略,每次选择当前模型最不能确定并且非孤立的未标注样本进行人工标注,避免浪费人力标注当前模型已经能很好处理的样本句子,通过对未标注样本的选择性学习,保证识别效果的同时,大幅度降低了人工标注量。本文针对提出的改进思路设置了一系列对比试验。实验结果表明,相对于传统模型,深度学习融合字、词以及外部特征可以提升4.37%的识别效果;使用半马尔可夫条件随机场融合片段特征,同时完成片段切分和实体分类,可以进一步提升6.42%的识别效果;引入主动学习,标注66%的样本,仅损失0.5%的F1-值,证明了本文提出的新能源汽车命名实体识别模型的有效性。
其他文献
在未知环境下进行地图构建是移动机器人实现自主导航的首要前提,也是计算机视觉、智能机器人等领域的研究重点。同步定位与地图构建,即SLAM技术,便是解决地图构建问题的关键所在,但不容忽视的是,使用单一传感器的SLAM技术仍然存在许多局限,如视觉传感器在复杂情况下经常发生特征丢失现象、单线激光雷达的探测范围有限等。因此,本文提出一种融合惯性测量单元(IMU)数据的双目视觉改进方法,并在此基础上对激光与视
自主水下航行器(Autonomous Underwater Vehicle,AUV)是集成了导航、控制、通信、传感、材料、流体力学等先进性技术于一体的水下探测设备,能够代替人类完成水下探测任务,是未来海洋装备发展的重要方向,在社会生活中有广泛的用途。微小型AUV具备小体积、轻质量、便于携带、机动性强、价格相对低廉等优点,在水下探测方面得到广泛应用。衡量一款AUV实用性和成熟度的关键要素之一就是具有
外骨骼是机械结构与智能传感相结合的机电系统,在军事领域外骨骼能够增强士兵的负重能力和耐久力,在医疗领域外骨骼能够为患有偏瘫和中风的患者进行康复性训练,帮助下肢残疾或脑瘫患者获得行走自由,辅助年老体弱者进行日常活动。助力外骨骼刚性的机械结构使其能够承受较大的负载,但是人体关节非常灵活,其运动复杂多样,在行走过程中人体与外骨骼是一个整体,如果外骨骼的运动影响人体运动或其助力不恰当,则人机系统运动失衡,
全球能源近年来持续减少,以沼气为代表的生物质能源逐渐走向人类的生活。随着生物质技术的发展,生物发酵技术不断成熟,从实验室走向工厂,从实验走向应用。随之而来的难题便是发酵装置的性能及工作状态监测,从而确保发酵环境最优提高发酵效率。本文正是在该背景下对沼气工程厌氧发酵过程监控问题进行设计研究。(1)针对沼气工程厌氧发酵过程目前存在的问题展开系统设计,如时效性不足,数据丢失率较高,缺乏智能化数据处理方法
微细铣削加工是具备良好的工程应用价值的精密制造加工技术,但微细铣削加工表面质量难以直接测量评估,且表面生成机理研究尚未得出成熟理论模型。因此本文以球头微细铣削加工为实验方法,以加工表面生成过程和微尺度效应为理论基础,深入研究了球头微细铣削加工后表面形貌的理论模型,以及微尺度效应对微细铣削表面形貌的影响等关键技术问题,完成了如下工作:首先对微细铣削过程中的坐标变换进行理论分析,得到球头微细铣刀任意刀
在国家提出打造“健康中国”战略背景下,药食同源食品因兼具食品和中药双重属性而受到了前所未有的关注。但是目前药食同源食品的质量控制标准缺乏,现有质量控制研究无法完全体现药食同源食品的双重属性,从而制约了药食同源食品产业的发展。该文综述了药食同源食品质量控制的研究现状,整理了相关质量控制研究内容,并提出符合药食同源食品双重属性的质量控制研究策略,明确了不同类型药食同源食品的质量控制研究内容,以期为药食
近年来,药品与个人护理用品的生产及使用量急剧增加,由于其在水生环境中可降解性差,具有慢性毒性、混合毒性以及具有持续累积等效应,对生态系统和人类健康造成严重威胁。传统的污水处理技术不能将其有效降解,而PbO2-ZrO2复合电极作为电催化氧化技术的一种阳极材料,具有析氧过电位高、氧化性能强,使用寿命长等优点,现已广泛应用于各类模拟污染物的电催化降解过程中。本文采用PbO2-ZrO2复合电极,电催化氧化
以"工业区位因素及其变化"课例为例,设计"果蔬干生产流程、异地分装、销售状况、发展前景"的教学主线,通过主题式情境教学,探究培育学生地理学科核心素养的策略。
六方氮化硼作为一种新兴的二维层状纳米材料,以其独特的二维层状结构和卓越的物理化学性质,引起了研究者们对其进行广泛的理论研究和应用探索。氮化硼具有稳定的化学性质和优良的传质传热性质,通过改性后功能化负载活性组分,是各类活性物质的优良载体,在非均相催化领域具有巨大的潜在应用价值。本文在基于研究者们对氮化硼材料有机改性工作的基础上,提出了羟基化氮化硼制备一系列有机官能团化氮化硼的方法,制备出高效且可回收
本论文研究了造纸工业副产品木质素原料,通过运用电化学降解的方法,达到制备高附加值的生物质基精细化学品的目的。本论文采用流化床电催化氧化还原降解木质素的方法,制备了生物质基化学品。用电沉积法制备了Ti/SnO2-Sb2O3/α-PbO2/β-PbO2电极用作阳极,Cu网电极用作阴极,活性炭颗粒用作粒子电极。利用循环伏安法研究了不同条件下Ti/SnO2-Sb2O3/α-PbO2/β-PbO2阳极的电化