融合多特征的老挝语词性标注研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:zhouxiaoqing1003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
老挝位于东南半岛北部,属于东南亚国家,且与中国毗邻,作为“一带一路”倡议沿线国家之一,其发展命运紧密地和中国联系在一起。由于两国之间语言不通且国内外对老挝语的研究较少,这严重制约了两国的交流与发展,因此本文的研究为老挝语的研究提供了基础,对老挝语其他后续任务的研究提供了重要的研究价值,可以推动老挝语自然语言处理领域的进一步研究。通过对老挝语的语言组成成分、老挝语句子特征、以及老挝词结构特征的分析和研究,本文主要围绕融合老挝语多特征的词性标注方法开展了一系列的研究工作,主要包括以下三个部分:(1)由于老挝语句子较长,导致数据在传递过程中容易丢失,严重制约了老挝语词性标标注研究。在对各模型进行比较分析后本文采用Transfomer+CRF作为基础模型,并以此来对老挝语句子进行长远上下文信息提取,解决重要信息丢失问题。首先,使用老挝语词向量作为输入;其次,使用Transformer对老挝语句子进行长远上下文信息提取,解决重要信息丢失问题;最后,使用CRF提取相邻词性约束关系,从而获取最优词性标签。实验结果表明,在同一老挝语料集的情况下,基础网络模型的精确率、召回率和F1值分别为93.73%、92.68%、93.20%。(2)目前流行的词性标注方法严重依赖语料规模及人工提取特征的质量;然而,老挝语资源稀缺、词形复杂,导致老挝语词性标注研究任务中不仅面临语料及特征选取的挑战还存在大量低频词和未登录词的词性识别问题。因此,本文提出一种融合多粒度特征的老挝语词性标注方法,通过在Transfomer+CRF模型的基础上融合老挝字符、音节和词特征,获取丰富老挝语料信息,提升模型识别老挝词性标注的准确率。首先,将老挝字符向量和音节向量输入CNN中,自动获取含有丰富老挝词信息的字符词特征向量和音节词特征向量;其次,将字符词特征向量、音节词特征向量与预训练的词向量进行线性拼接,获得融合了多粒度特征的老挝词特征向量;然后,将老挝词特征向量输入Transformer层,得到老挝句式语义特征;最后,使用CRF提取相邻词性约束关系,从而获取最优词性标签。实验结果表明,在同一老挝语料集的情况下,通过融合多粒度特征能有效提升基础网络模型对老挝语的词性标注效果,准确率达到94.64%。(3)老挝语语料稀缺,导致模型性能不稳定,存在过拟合风险。本文提出了一种融合多粒度特征的多任务老挝语词性标注研究方法,构建了融合老挝字符、音节和词特征的多任务老挝词性标注模型。由于命名实体识别和词性标注都属于基础的自然语言处理任务,且二者处理任务方法极度相似,基于多任务学习思想,将老挝语词性标注任务作为主任务,老挝命名实体识别任务作为辅助任务,进行联合训练。为了进一步证明多任务学习的有效性,在实验部分增加了Att-Bilstm-CRF模型作为对比模型,在同一老挝数据集下,分别进行词性标注作为主任务、命名实体识别作为辅助任务的多任务学习和仅有词性标注任务的单任务学习模型进行比较分析。实验结果表明,在语料有限的情况下,主任务和辅助任务之间通过参数共享的方式可以进一步加强模型的性能,提高模型泛化能力,降低模型过拟合的风险,最终获得更优的词性标注标签,且该网络准确率达到94.64%。
其他文献
机器视觉检测技术因不易受环境条件影响,生产成本低,安装灵活,只用在相机里安装对应的检测模块即可等优势,被应用于越来越多的领域。图像内容表示模型是机器视觉检测过程的重要环节,图像内容表示模型的不同构建方式影响机器视觉检测的应用场景。本文从应用于工业领域产品缺陷检测的角度出发,提出一种基于混合高斯的表示模型。现有的图像表示模型较多直接以检测目标为整体建模或需要大量的矩阵运算,存在对检测目标较小的细节变
坡度频率分布是定量化研究地形坡度分布的一种常用方法,以全球陆地为研究区计算坡度频率分布,能够为进一步了解地球表面地形坡度分布特征提供信息,并为相关地学研究提供一个标准统一的参照系。本研究首先从空间分布和频率分布两个方面对比了现下主流30m分辨率DEM数据集:ASTER GDEM v3.0和SRTMGL1 v3.0,对坡度表达的稳定性,并最终证明了30m分辨率下SRTMGL1 v3.0数据产品更适用
同一场景可以通过多种传感器捕获多幅图像,每一图像包含不同信息,图像融合技术就是整合多个图像的互补信息,使融合后的图像对场景描述更加全面和清晰。如今,图像融合技术已广泛应用于遥感探测、医学诊断、国防安全、工业检测等领域。然而,现有融合技术仍然存在一些亟待解决的问题。比如,当要融合的图像受损时,现有的融合方法无法在融合处理过程中恢复出丢失信息。通过图像融合和矩阵完备的逐步操作可部分恢复图像的丢失信息,
发动机作为汽车的核心部件,具有类型繁多,结构复杂、零部件数量多等特点,其维修是汽车维修过程中的重点和难点。在发动机故障维修工作中,存在故障原因查找困难、零部件结构认知不准确、维修操作过程不规范、维修效率低等问题,仅依靠维修人员的维修经验和查询维修手册等传统方法很难保证发动机故障准确高效的维修需求。目前针对发动机故障维修主要依靠电脑诊断软件故障和维修人员依据故障现象和经验查找硬件故障这两种方式,而在
髋关节发育不良是一种在青少年和成年人群中常见的骨关节疾病。正常人的髋臼髋关节中心与股骨头中心近似重合,由于髋臼的发育缺陷导致髋臼的深度变浅、坡度变大从而使股骨头与髋臼的接触面积越来越小。髋臼与股骨头之间的受力面积减小,接触应力峰值增大,进而产生应力集中。应力集中会造成关节软骨的过度磨损,损坏关节软骨,最终发展成为髋关节骨性关节炎。髋臼周围弧形截骨术是治疗髋关节发育不良的一种新型的治疗方式。目前国内
铜电解是铜冶炼过程中的重要工艺,常因多方面电解工艺因素的影响,致使阴极铜板表面出现结瘤缺陷,严重影响其表面质量。考虑到在人工识别该缺陷的过程中,受内、外多方面因素的干扰,致使操作人员对铜板表面结瘤缺陷结果产生误判,影响最终决策合理性。针对上述问题,本文提出一种结合混沌鸟群算法的铜板结瘤缺陷图像识别方案,旨在提高企业生产的智能化,同时降低生产成本。主要工作如下:(1)分析了不同视角下采集铜板图像的差
赋有可变二维码的烟标因其在防伪溯源、宣传营销等方面的优势正逐渐成为主流的烟草包装形式。随着印刷企业赋码作业规模的持续扩大,其生产质量不稳定,印刷精细程度无法保证的缺陷越发突出。针对此问题,本文基于目前印刷企业中烟标可变二维码的整体喷印流程,首先进行了可变二维码喷印过程的数值模拟及墨滴形态的分析;其次进行了二维码喷印工艺参数对二维码符号等级的影响研究;最后对烟标可变二维码喷印质量优化进行了实验研究。
车联网(Internet of Vehicles,Io V)是一种因特网在车辆领域的应用。车联网的基础是车载移动互联网,并通过相关的通信协议相互连接的大型通信网络。在智能交通领域,Io V是最重要的组成部分。Io V负责将车辆相互连接起来,以达到消息共享、消息通信的目的。由于Io V开放的特性,攻击者可以截取实时广播的信标信息,通过分析所截取的信标信息获取驾驶人员的习惯、车辆运行的轨迹、驾驶人员的
近年来,深度学习的应用不仅在图像识别、文本生成等领域表现突出,在自然语言处理方面也效果显著。自然语言处理系统在生活中比比皆是,比如手机智能助手在理解用户请求之后,就能通过文字或语音的方式反馈用户信息。人类之间主要通过语言的方式进行沟通交流,以达到知识分享、扩展人际关系等目的。然而,目前全球在使用的语言超过五千种,要想精通多门语言是一项艰巨的任务。此时,机器翻译作为自然语言处理领域中的一个重要分支部
本文对驾驶行为特征进行了关联规则挖掘,以改进的K-means算法和改进的Apriori算法为主要研究目标,并使用标准UCI数据集和泰迪杯数据挖掘大赛中的驾驶行为数据集来验证算法的有效性。首先,将驾驶行为数据进行预处理,对异常数据进行清洗和删除,防止脏数据对挖掘结果的影响。由于Apriori算法本质上只能挖掘离散型数据之间的关联规则,而驾驶行为特征参数在空间上是连续的,因此根据K-means算法对驾