语音翻译中口语文本规范化的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：yvedy

【摘要】

：

随着全球经济一体化的发展，人们对国际化信息的渴求越来越强烈。为了解决不同语言之间的交流障碍，语音翻译应运而生。通常语音翻译由语音识别、机器翻译、语音生成三分部组成，其

【作者】

：

吴双志

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2015年期

【关键词】

：

语音翻译机器翻译语音识别文本规范化依存句法条件随机场

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着全球经济一体化的发展，人们对国际化信息的渴求越来越强烈。为了解决不同语言之间的交流障碍，语音翻译应运而生。通常语音翻译由语音识别、机器翻译、语音生成三分部组成，其中语音识别文本是连接三个模块的纽带。然而口语自动语音识别文本通常包含重复、停顿、修正、冗余等不流利因素。识别并移除这些不流利因素有助于提高后续自然语言处理任务的质量。　　本文主要研究了如何对口语中的不流利现象建模，识别并移除不流利因素，使口语文本书面化。本文首先提出多种基于依存句法结构的特征并利用条件随机场模型(CRF)完成对不同类型的口语不流利现象的检测。重点研究了不同类型不流利检测的区别，以及不流利检测任务对机器翻译的重要影响，实验结果表明口语不流利检测可以提高机器翻译质量。同时本文研究了最大间隔马尔科夫网模型(M3N)，并将该模型应用在了不流利检测任务中，得到了良好的识别性能。然后本文根据不流利检测特点和以往工作中的不足提出了基于反向依存句法分析的不流利检测算法，并根据考虑问题的不同角度分别提出了BCT模型和UT模型。本文提出的模型能够充分利用句子中长距离的依存关系，结合了多种句法特征和口语不流利特征，并能够在线性时间内同时完成不流利检测任务和依存句法分析任务。最后本文将多种现有算法和本文提出的算法进行了全面的对比分析。实验表明，本文提出的算法在英文Switchboard数据集上获得85.1％的不流利检测F1值和92.2%的依存句法分析UAS值，均高于现有工作。此外，还将本文提出的算法在中文标注数据集上进行了测试，实验结果表明，本文提出的算法在中文上的识别性能高于基于CRF模型的方法。

其他文献

基于恶意网页检测的蜜罐系统研究

蜜罐是一种用来发现攻击工具、攻击策略与攻击者攻击动机的知名技术。它是近年来兴起的一项全新的、从战争欺骗思想发展而来的网络安全技术,其目的在于被探测、攻击和摧毁。

学位

安全蜜罐客户端攻击恶意网页检测

基于SOA服务总线的电费充值卡系统设计与实现

本文根据电力部门缴纳电费业务的特征，以SOA服务总线架构为系统业务集成的基本架构；采用Java EE、EJB、JMS、Web Service、工作流、EAI等技术，研究如何设计和实现基于SOA服务总

学位

SOA服务总线企业服务总线电费充值卡系统

基于柔性SOA的通用权限管理服务

面向服务的体系结构(Service Oriented Architecture,SOA)对现代软件开发模式产生了深远的影响,它通过服务的发布、发现以及绑定等机制为其它的应用程序提供服务。准确的说,S

学位

柔性SOA通用权限管理服务服务本地化XMLBeans+Web Services模型角色访问控制

移动云环境下的计算密集型任务迁移技术

随着移动设备的普及,以及3G、4G网络的飞速发展,移动云计算作为云计算和移动网络技术结合的产物,逐渐表现出巨大的潜力和前景。移动云计算是指移动用户可以采用移动互联网作

学位

移动云计算任务迁移线程迁移能耗

移动IP切换性能研究

传统Internet由于时空上的限制,不能满足越来越多移动用户的需求,因此一种新的技术——移动IP技术,应运而生。让移动用户能够在自己所处的位置不断变化的情况下,保持已有的通

学位

Internet移动IP切换NS2

基于GPRS技术的无线指纹身份验证系统的设计与实现

保安押运行业是一个对其押运人员在考勤、配领枪支与执勤方面有特殊身份验证要求的行业,这种特殊要求使得传统的个人身份鉴别手段无法满足保安押运行业在人员管理和安全防范

学位

身份验证指纹识别GPRS嵌入式系统

蜜罐中的异常检测关键技术研究与实现

学位

一种多平台分布式数据库备份恢复机制的研究

信息系统数据的重要性正在与日俱增,成为企业资产中举足轻重的组成部分。如何保证数据为企业信息系统提供安全、稳定的服务己成为企业用户的关注点。基于网络的信息系统的流

学位

分布式数据库备份恢复模型数据一致性事务管理代理数据捕获

基于JBPM的工作流技术在异地协同设计中的应用研究

随着信息化进程的深入，通信技术与计算机及其网络技术相融合，产生了一个新的研究领域一计算机支持的协同工作CSCW(Computer Supported Cooperative Work)，简称计算机协同工作，计

学位

JBPM工作流协同设计广西中小型企业

通用多媒体查询语言UMQL的查询分析研究

随着各种类型多媒体数据的大量涌现,迫切需要一个统一的多媒体数据管理平台来存储和管理这些多媒体数据。因而,多媒体数据库已经成为目前国内外数据库研究的热点和难点。查询

学位

多媒体数据库多媒体查询语言查询需求评价准则查询分析

语音翻译中口语文本规范化的研究

其他学术论文