【摘 要】
:
传统的维汉机器翻译主要是利用维汉平行语料库,基于词对齐、短语对齐的流程,完成双语词典和语言模型的训练,并且实现最终的翻译。维吾尔语是少数民族语言,也属于词素变化较为丰富的黏着语言,现实中严格意义的维汉平行语料库相对匮乏。本文针对很难获取大量的维汉平行语料库以及现有维汉机器翻译模型并未充分利用维汉语言之间共通性的问题,主要进行了两个部分的研究工作。其一,本文利用时间、空间、主题三种维度从互联网上爬取
论文部分内容阅读
传统的维汉机器翻译主要是利用维汉平行语料库,基于词对齐、短语对齐的流程,完成双语词典和语言模型的训练,并且实现最终的翻译。维吾尔语是少数民族语言,也属于词素变化较为丰富的黏着语言,现实中严格意义的维汉平行语料库相对匮乏。本文针对很难获取大量的维汉平行语料库以及现有维汉机器翻译模型并未充分利用维汉语言之间共通性的问题,主要进行了两个部分的研究工作。其一,本文利用时间、空间、主题三种维度从互联网上爬取到相对多的具有一定相关性的维汉语料,通过从多个维度组织编排并构建了维汉弱平行语料库;并以此作为本文的研究基础,利用现有的神经网络技术,训练基于弱平行语料的维汉机器翻译模型,完成维汉翻译任务;其二,本文引入局部权值共享的思想对翻译模型的编码器模块进行改进,将编码器模块前5个子层参数进行共享,更好地利用了维汉语言之间语法、语义等方面的共通性。基于本文所构造的维汉弱平行语料库,通过实验训练了相应的翻译模型并开展实证分析,验证了本文所提出的模型对维汉翻译的有效性。同时,利用BLEU值作为评价标准,开展了进一步的实验分析,分析结果表明,基于弱平行语料的维汉机器翻译模型能够提高维汉机器翻译性能,在汉维和维汉两个方向的翻译结果最大分别提高了1.98和2.13个BLEU值,证明构建维汉弱平行语料库是行之有效的;改进了的局部权值共享的维汉机器翻译模型在汉维和维汉两个方向的翻译结果最大分别提高了2.51和2.52个BLEU值,PPL值也大大降低,维汉双向翻译结果上语言忠实度和流畅度更高,证明局部权值共享可以充分利用维汉语言之间的共通性。
其他文献
松材线虫是一种毁灭性的森林病虫,松材线虫早期发现是对抗松材线虫病的最有效手段,因此,松材线虫病监测技术是松材线虫病防控成功与否的关键。目前,林业部门在很多松林区域仍然依赖人工普查的方式防控疫情,普查效率不高,结合无人机航拍技术、图像处理和机器学习技术的松材线虫病疫情防治手段是重要研究对象。目标计数算法是指计算机通过对静态图像或动态视频处理获取图像中目标的数量的过程。本文提出了一种基于神经网络的松材
深度学习算法在计算机视觉领域取得了巨大成功,但有研究指出深度学习模型很容易受到对抗样本的攻击从而做出错误的决策。这对深度学习的进一步发展提出了挑战,也促使研究者更多关注对抗样本攻击与深度学习安全之间的关系。目前主流的攻击算法有多种形式,可以根据不同情况下的深度学习模型进行针对攻击。主流的研究方向包括提高攻击成功率,降低对抗样本生成的资源开销以及贴近真实攻击场景的黑盒攻击。本文围绕对抗样本展开研究,
长距离的温度监测在工程实际场景中有着广泛的用途,在输气管线泄漏监测、高压输电线路以及电缆廊道等大范围、长距离场景中都需要对温度进行准确、快速且高空间密度的测量监控。近年来,在光纤传感领域,基于拉曼散射的分布式温度测量系统、基于布里渊散射的光时域分析仪以及基于光纤光栅的温度测量系统已经大量投入了实际使用,这些产品在传感距离上实现突破时往往很难兼顾测量精度和响应时间等其他指标,或者精度高响应快但是传感
随着我国经济高速发展,园区广泛建设,城市化、信息化、应用化逐渐融为一体,水平不断提高,“智慧城市”“智慧园区”理念深入人心。当前智慧园区监控水平还有待提高,存在如操作体验不强、监控系统单一、管理困难、维护成本高等问题,应把信息三维可视化、监控安防统一化、管理维护人性化有机地结合起来。本文基于三维虚拟地球引擎Cesium对园区内强弱电信息进行二三维可视化监控系统的设计与开发,有效提升了监控管理和信息
相位敏感型光时域反射计(Phase-sensitive Optical Time Domain Reflectometer,Φ-OTDR)是一种新型全分布式光纤传感技术,能够承受较高压力,并且检测范围很广,而由于光纤的特殊性,它还能够耐腐蚀,灵敏度也特别高,自然就成为了通信等各个领域研究发展的一种重要技术。相比于其他现有的光纤传感技术,Φ-OTDR的主要优势在于能够检测更加微弱的外界振动信息,更为
在享受时代和网络不断向前发展所带来的服务和技术的同时,也面临着网络发展时代变化带来的种种问题和挑战。僵尸网络就是其中较为突出的一种,可实施盗窃,入侵,远程操作肉鸡等多种攻击行为。能够通过网络流量,而不是后知后觉地监视受感染主机的方式,较早较快地通过网络流量来发现和识别僵尸网络是未来的一种必然选择。本文的主要工作如下:1.使用长短期记忆网络(Long Short-Term Memory,LSTM)代
当今信息时代,面对海量的图像、文本、音视频等多种形式的信息,在进行处理时如何快速准确地获取到各类工作所需要的信息,从而提升工作效率,是当前信息领域的研究大方向。其中对文本数据的研究、即自然语言处理中,信息抽取以其对文本最基本要素信息等的处理,成为重点研究任务。信息抽取有三个子任务,分别为实体抽取、关系抽取和事件抽取。其中实体抽取和关系抽取是很多复杂自然语言处理任务的起始任务,其结果对下游任务影响很
近年来,城市中的安全隐患日益增多,各类灾害事故呈现出风险高,危害大的特点,安全隐患日益增多的主要原因是社会经济持续快速发展,城市规模不断扩大导致的人口大量聚集,因此社会公共安全需求日益增加。随着城市化进程的持续进行,城市高层、地下、商业综合体、地铁、隧道等建筑发展迅猛,导致公安消防局现役防灭火力量严重不足,消防官兵长期疲劳作战,火灾防控压力巨大。国务院《促进大数据发展行动刚要》(2015)指出要推
音频场景分类(Acoustic Scene Classification,ASC)是将音频与其录制场景对应起来的一种方法,是计算机听觉场景分析的重要课题之一。音频场景分类,主要是通过提取音频信号的特征,并将经过分析的特征分类到与之对应的场景。目前的音频场景分类系统主要由音频特征提取和分类器两部分组成,提取的音频特征主要包括梅尔频率倒谱系数和对数梅尔谱图,分类器主要包含循环神经网络,卷积神经网络以及
近年来,由于管道的老化、人为破坏、自然灾害等因素,油气管道泄漏事故频发,不仅对人民的生命财产安全构成一定威胁,还对环境造成污染,因此管道泄漏检测技术的研究具有重要意义。φ-OTDR(phase-sensitive optical time-domain reflectometer,相位敏感光时域反射计)分布式光纤振动传感系统具有可连续分布式测量、灵敏度高、测量距离远等优点,非常适合应用于油气管道的