老挝语机构名识别方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:houlitao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国国力日益强大与一带一路倡议的发展,中国与老挝在经济文化交流上关系日益密切,为了进一步发展,语言上的了解也是必不可少的。目前关于老挝语的研究在我国还比较薄弱,其中命名实体的识别是老挝语自然语言处理种一项基础任务,能够提升信息检索、机器翻译、文本摘要等任务的性能。命名实体识别的研究主要包括对人名、地名和机构名的识别,相对于人名和地名,机构名称的识别相对而言比较复杂。目前,针对老挝语的研究还比较少,老挝语标注语料也比较稀缺。为了解决老挝机构名实体构词方法和语法规则复杂的问题,本文提出了对应的解决方法。本文主要对老挝语机构名识别方法进行研究。主要工作如下:(1)融合多特征的老挝机构名实体识别方法针对老挝语机构名构词相对复杂并且存在大量的词语歧义特点,我们需要解决结构性歧义与词义歧义的问题,因此本文提出了融合多特征的老挝机构名实体识别方法。该方法面向老挝语机构名构词特点,使用支持向量机模型融合词典特征,对老挝机构名前缀进行识别;再使用融合多特征的条件随机场模型对机构名进行识别;最后根据前缀词的识别结果对机构名识别结果进行修正,实现结果表明,系统能够有效识别老挝语机构名。(2)融合字符特征向量和语言模型的老挝语机构名实体识别方法针对特征构造所需人工成本高、所需时间长的问题,本文采用了融合老挝语机构名字符特征向量信息和上下文特征的深度神经网络模型。该模型能够结合老挝语机构名的构词特点,从大规模语料中学习到词素向量,再输入到神经网络模型中,该模型可以学习机构名的上下文特征与字符、语言模型等不同层面的知识,最后融合条件随机场对标注序列进行联合解码,该方法能够学习到词语间的语义关系和标记间的依赖关系,实现结果表明,该方法能够有效改善识别准确率,帮助系统提升性能。(3)采用Transformer-CRF的老挝语机构名实体识别方法由于传统的循环神经网络模型无法处理长度较大的句子,并且无法并行,效率低下,本文提出一种基于Transformer与CRF相结合的方法来构建识别框架,该框架的编码器与解码器使用注意力机制为核心,为了解决Transformer不能利用标签之间的依赖关系的问题,使用条件随机场来做标注任务,使整个框架更加注重整个句子长远信息,同时Transformer模型不仅能够提高并行效率,同时还能获得更好的学习效果,提升系统的性能。
其他文献
无线通信系统的快速发展使得频谱资源越发紧张,毫米波天线是未来发展的一个重要趋势。毫米波通信系统具有工作带宽大,占用体积小等显著优势,在汽车雷达,卫星导航及5G通信方面有着重要应用价值。毫米波天线作为收发电磁波的关键器件,是保障通信质量的重要组成部分。本文研究了相控阵天线技术,传输线转换及磁电偶极子天线理论,设计了工作于毫米波频段带状线馈电的宽带小型化磁电偶极子天线并将其应用到相控阵上。具体研究工作
声调一直是对外汉语教学的重难点,对于母语为无声调语言的保加利亚汉语学习者来说尤其困难。“洋腔洋调”现象存在于各国学习者之中,也都各不相同,保加利亚学习者在语流中呈现出的“洋腔洋调”问题也是独具特色的,比如受母语影响学习者常把汉语陈述句末尾字声调偏误为降调等。而目前学界对字词中声调习得偏误的研究较多,对整体句调习得偏误的研究也较多,可针对语流中声调习得具体情况的研究较少。但有研究显示,汉语语流中单字
学位
近年来随着卫星通信的发展,为满足军用、民用领域日益增加的通信需求,我国开始关注其发展情况。通过建设星地融合低轨卫星网络,利用低轨卫星网络以及地面信关站协同工作来完成各项通信任务。本文在此背景下,搭建了由低轨卫星网络、地面控制中心、以及地面信关站组成的星地融合卫星网络,并且主要对该卫星网络路由协议进行了研究。针对目前低轨卫星网络路由协议存在的复杂度高、资源利用不充分以及实际卫星能力不足以支持星上自主
学位
日志内包含的数据具有各种用途,如用于问题定位、数据分析等。原始的日志为字符串形式,当对其进行进一步分析时,首先需要将日志模版提取出来,并获取关键位置上的数据。但目前存在的日志模版提取算法,处理日志时无法正确处理日志中的Json字段或Key-Value类型的字段,导致准确率大大降低,称带有该类型字段的日志为复合型日志。针对上述问题,本文提出一种针对复合型日志的模版自动提取算法,基于该方法设计并实现可
随着互联网的发展,互联网广告越来越变的普及,业界知名公司都开放了广告平台。广告扣费系统是广告平台重要的一个模块。本文根据互联网真实场景的下广告交易平台的扣费需求,设计并实现了基于微服务的广告扣费系统。论文使用java完成了广告扣费系统的开发,整个广告扣费部分基于微服务框架sofa实现。Sofa是蚂蚁金服开源的RPC框架,提供了优秀的通信协议与通信框架,并且提供了负载均衡,流量转发,链路追踪,链路数
近年来,网络舆情反转现象频繁发生,破坏了正常的舆情发展,容易发生衍生舆情,同时催生大量谣言,增加了人民对新闻和现实的不信任感,威胁到了政府的公信力。反转也会导致网络暴力的产生,增加了社会治安的压力,进一步提高政府部门的监管难度。对于网络舆情反转的影响因素,本文从网络舆情主体、客体和本体三要素出发进行研究,总结出网民、政府、事件、反转信息、网络暴力、观点冲突等12个影响因素。将其作为数据层,纳入网络
自十八届五中全会提出以来,习近平“以人民为中心”思想既是新时代中国特色社会主义思想的重要组成部分,也是其最根本的理念和最重要的思想内核。准确把握和贯彻执行以人民为中心思想,是今后相当长一段时间内能否坚持和发展好新时代中国特色社会主义的关键之维。要做到这一点,首先必须准确理解它的思想内涵。回顾、总结和分析以人民为中心思想的形成,可以帮助我们准确理解其思想内涵。习近平“以人民为中心”思想不是一蹴而就的
目的:(1)研究高血压心衰心气阴虚证大鼠尿液代谢组学的特征,寻找潜在的差异性代谢物,为临床诊治高血压心衰提供实验依据。(2)研究参麦注射液干预高血压心衰大鼠尿液代谢物的变化,从小分子代谢物阐释参麦注射液治疗心衰作用机制,为临床运用中药制剂奠定基础。方法:将20只Dahl/SS盐敏感大鼠随机分为正常组(6只)和模型组(14只)。正常组大鼠给予低盐饮食(0.3%氯化钠浓度),模型组大鼠给予高盐饮食(8