基于深度学习的微博文本命名实体识别研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:klsslove520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的迅速发展以及移动智能终端的普及,越来越多的人开始习惯通过微博平台来发布和传播信息,微博文本信息呈现爆炸式增长。从海量微博文本中获取有效信息越来越受研究者们的关注,基于微博文本的关系抽取、事件跟踪、舆情分析等研究应运而生,命名实体识别作为这些研究的基础工作就显得尤为重要。因此,从数量庞大的微博文本信息中快速有效地进行命名实体识别成为自然语言处理领域一个新的研究热点。本文针对微博文本灵活多变、语言逻辑不规范、公开语料少和不具备词边界特征等特点,通过引入词性特征和多任务学习的方式对现有模型进行改进,并提出了以下两种命名实体识别模型:(1)微博文本语法不规范且多由短语组成,严重影响了现有针对规范、长句文本设计的命名实体识别算法的性能。针对上述问题,本文提出了一种融合词性信息的微博文本命名实体识别模型。针对微博文本中命名实体多为名词词性这一特点,该模型选取分词工具Py NLPIR进行文本的词性信息提取,并以词性信息作为特征与单词嵌入向量结合输入Bi LSTM-CRF模型的方式,实现命名实体识别模型的改进。实验结果表明,融合词性信息的命名实体识别模型,显著提高了微博文本命名实体识别的准确率。(2)本文针对微博文本公开标注语料少、词边界不易识别的特点,设计了一种基于多任务学习的命名实体识别模型。该模型将分词任务和命名实体识别任务共同训练,通过底部Bi LSTM层及参数共享的方式,实现任务之间的特征表示共享,缓解了命名实体识别任务中标注语料少的问题,利用多任务学习的窃听机制,改进模型的泛化能力。通过多组对比实验证明,基于多任务学习的命名实体识别模型很好地学习到分词任务中的词性及词边界信息,有效地提高了命名实体识别效果。最后,将提出的两种微博文本命名实体识别模型的原型进行实现,并将测试结果进行可视化展示。
其他文献
铁路运输是国家经济发展的重要一环,列车运行安全又是铁路运输的重中之重。列车偏载除了对列车轮轨造成严重的磨损外,还可能导致脱轨事故的发生,严重影响列车的运行安全。而当前的列车偏载监测装置存在一定的缺陷,如枕轨间距不匹配导致检测准确性下降、检测平台安装及维修难度大、监测过程中对列车的速度有限制等。而智能化的列车偏载监测手段还是空白,因此非常有必要研究一个可对列车偏载进行实时监控的系统。而本文重点研究了
随着成像光谱仪的飞速发展,高光谱遥感成为对地面观测的一种重要手段。与多光谱遥感图像相比,高光谱遥感图像具有数据量大、波段间相关性高、标签样本获取困难等特点,使用传
图像语义分割是图像处理、计算机视觉和深度学习领域中十分重要的研究方向,语义分割是将图像逐像素进行分类,从而将原始图像分割为具有特定像素标记的语义分割图像,在图像处理中最具挑战性。随着自动驾驶技术的兴起,图像的语义分割可以准确分析和定位场景中的物体信息,以此进行导航与精确制导;另外,也可以通过语义分割检测植物表面的病虫害,因此,图像语义分割也越来越具有应用意义。在实际场景当中,图像语义分割也面临很多
基于蛋白质分子的生物电子器件的研制与开发已引起广泛的关注,成为生物电子技术领域的研究热点。由于蛋白质分子本身尺寸小,因而可将制备的电子器件微型化至纳米级尺寸,并可进一步降低器件的能耗和提高器件的响应速率。此外,蛋白质分子还具有较好的光学和电学性质,这些特性对于提升电子器件的性能至关重要。目前,蛋白质分子已被广泛用于多种类型生物电子器件的设计与研制,如生物传感器、生物分子电路以及生物燃料电池等。这些
自改革开放以来,我国的经济建设取得了飞跃式的发展,城镇化建设迅猛推进,人民群众生活水平不断提升。但与此同时,对生态环境带来的破坏也是极其深远的,如水源污染、生态环境
近年来,困境儿童问题逐渐成为政府与社会共同关注的问题,政府部门以及社会各界纷纷采取措施保护这一群体,维护困境儿童的相关权益。农村困境儿童是我国现阶段特殊的弱势群体
信息技术变革时代,组织的创新资源在于新信息、新技术的创造与获取,而组织通过内部获取模式与外部获取模式都可以获得新信息、新技术来产生创新,如何有效配置内外部技术资源
大学生志愿服务是时代精神的重要体现,是将课堂教育与社会生活贯穿起来的重要载体。道德教育是国家培养高素质人才的关键,大学生志愿服务有助于引导学生形成符合社会主义核心价值观的道德品行[1],不仅满足了大学生成长成才的需要,更促进了大学生个体的全面发展。理论研究的价值在于推动实际问题的解决,大学生思想政治教育通过志愿服务这一实践路径将大学生的理论知识进行内化,弥补了传统教育无法涵盖之处,激发了思想政治教
高校信息网络中心的呼叫中心的坐席人员在接听来电时同步创建工单,历史工单信息反映出,来电可被划分为一定数目的业务类型,且每个业务类型中包含高频咨询问题。因此可根据业务类型构建知识库对部分来电进行智能应答,以提高服务效率。录音分类成为构建智能应答呼叫中心的基础,大量的录音数据通常转化为文本处理,已有的录音数据均有与之关联的工单,工单可作为补充信息,提高录音文本分类的准确率。本文基于呼叫中心的录音文本及
众所周知,资金对一个企业的重要性,现阶段中国国内融资渠道相对狭窄,商业银行的资金仍是企业融资的主要来源,如何从商业银行处获得融资,与商业银行长期长久合作,是一家企业财