【摘 要】
:
命名实体识别是自然语言处理的一个重要研究方向,也是许多智能化系统的关键技术。近些年神经网络得到快速发展,基于深度学习的命名实体识别方法成为新的研究热点。本文面向智
论文部分内容阅读
命名实体识别是自然语言处理的一个重要研究方向,也是许多智能化系统的关键技术。近些年神经网络得到快速发展,基于深度学习的命名实体识别方法成为新的研究热点。本文面向智能车险电话报案系统中对出险地址进行定位的应用需求,研究如何从用户对所在位置的表述中,对地址实体进行识别并分类的问题。本文主要工作如下:(1)针对地址名过多、用户表述方法杂乱的特点,设计了一个高性能的多层神经网络。该网络以BERT词向量作为模型输入,使用双层双向LSTM和CRF模型进行特征提取。同时,将基于地址库的先验知识引入地址识别模型中,通过对已有地址库条目的精确匹配,得到训练语料的初步识别结果,并将该结果与文本词向量拼接起来,作为模型的输入,引导模型朝着先验知识的方向进行预测。(2)在训练数据的获取上,提出了一套完整实用的训练集生成与优化方案。针对现有语料无法覆盖足够多的地址名和用户表述方式的问题,采取了地址名填充用户表述语言模板的方法,进行训练语料的生成。此外,由于该方案得到的语料可能无法完全符合标注规范,本文对训练语料进行了多轮优化,从而使模型可以取得更好的识别效果。(3)进行了模型超参数对照实验、训练语料优化实验以及多模型对照实验,并将模型应用于实际工程。超参数对照实验对比了不同的学习率、LSTM向量维度、训练语料数量以及DropOut参数,找到较为适合本文后续实验的超参数;多轮训练语料优化实验研究了训练语料质量以及先验知识加入对模型效果的影响;多模型对照实验参考了其他命名实体识别研究,考察不同深度学习模型在地址识别任务中的效果。得到最优的地址识别模型后,本文将模型应用于实际工程项目,验证了模型的可行性。实验结果表明,本文所提出的地址识别模型,在地址数量多、用户表述杂乱的应用背景下,可以取得F1值超过90%的实验效果。在智能车险报案系统实际运行中,本文设计的地址识别模型可以高效地从用户表述中识别出地址信息,在整个系统的运行中发挥了重要的作用。
其他文献
介绍了一种在32位Windows操作系统中分配物理内存及其直接访问的方法。物理内存在涉及到外设硬件操作时经常使用,但在Win 32下却不易实现。本文介绍的方法解决了这一问题。
目的分析肺栓塞患者临床特征与危险因素,并将其归纳总结。方法回顾性分析我院收治的50例肺栓塞患者的临床资料,分析肺栓塞的危险因素与临床特征及治疗经过。结果 50例肺栓塞
2014年,习近平总书记首次提出关于系统和科学的社会“治理”表述,切换了原有的“管理”表述。自党的十八大以来,我国国家治理体系中的社会治理提出了新理念和新的要求,相继提
世纪之交,我国经济进入转型期,城市用工岗位一再缩减,农民工就业问题日益严峻。此际,农民工流动方向开始发生逆转,一股返乡创业浪潮正在兴起。农民工返乡创业不仅为欠发达地区带去了资本、技术和理念,还创造出更多的就业岗位,成为振兴乡村经济的重要引擎。随着返乡农民工创业热情愈发高涨,其自身创业能力不足的缺陷逐渐显露出来,无形之中提高了创业风险,不利于农村产业的安全稳健发展。中央及地方政府适时出台了一系列创业
1999年普利策小说奖得主迈克尔·坎宁安是当代美国知名作家,他擅于用细腻的词句刻画人物内心情感。成名作《末世之家》自1990年一经问世便受到高度赞誉,使坎宁安蜚声美国文坛。其他创伤小说大多关注种族创伤、民族创伤、战争创伤、性别创伤等宏大叙事,而《末世之家》书写了原生家庭给普通人带来的创伤。从小说名《末世之家》中不难看出,“家”是整部小说的主题,暗示了主人公们的创伤与复原都与“家”密不可分。国内外学
小说,因其各色各样的人物形象,以及曲折动人的故事情节,倍受高中生的喜爱。但现阶段,作为高中语文阅读教学重要部分的小说教学,其情况却不乐观。一方面,教师对小说的解读标签化,忽略文本细节处,还严重地依赖教学参考资料,导致课堂教学内容陈旧无聊。另一方面,现行的小说教学模式缺少语文味,缺少文学味,套路模板化。这些高中小说教学内容和教学方法方面的问题,不但导致小说教学无法达到预期的目标,而且让学生觉得索然无
有效教学是一个时代话题。人们对有效教学认识是一个随着社会发展不断深入的过程。有效教学反映的是一个过程而不是结果 ,应该用与时俱进、科学发展观看待有效教学。教师在课