论文部分内容阅读
语音合成就是使用专用的硬件设备或计算机再现人能够听得懂的语音信号的过程。语音合成技术是实现人机语音通信,建立一个有听说能力的口语系统所必需的关键技术之一。纵观语音合成技术的研究已有二百多年的历史,但是真正具有实用意义的近代语音合成技术是随着计算机技术以及数字信号处理技术的发展而逐渐发展起来的。近几十年来语音合成的方法主要有:发音器官参数合成法、源-滤波器模型合成法、单元挑选合成法和可训练语音合成法等等。这几种方法各有优缺点,但是相比较而言,可训练语音合成技术的自动化程度较高,对于不同发音人、不同发音风格、甚至不同语种的依赖性非常小。基于这些特点,本文选用了基于隐马尔可夫模型(HMM)的可训练语音合成方法来进行合成系统的构建。越南位于东南亚中南半岛东部,与中国云南交界,由此带来了两地语言文化及相关人才的频繁交流,以及研究越南语语音新技术的区域优势。所以本文研究了越南语语音合成系统,并希望最终能把研究成果运用到实际中,实现越南语的人机交互。论文的主要工作包括:(1)阐述HMM的基本原理,介绍基于HMM的可训练语音合成系统架构过程。(2)介绍越南语的语音特征、综述越南语语音合成现状,在此基础上进行越南语语音合成系统的数据准备工作。数据准备工作主要包括:语料库构建、音素列表确定、训练数据的标注以及上下文属性和问题集设计。其中最重要的一部分工作就是对训练数据进行标注。本论文中我们采用手工与程序相结合的方式进行语料库标注。(3)在Cygwin平台,根据STRAIGHT合成器的训练流程,用500句已标注的语句完成越南语语音合成系统的模型训练,以及后端合成器的构建。在对待合成语句进行韵律标注后,用合成器生成其语音波形。实验结果表明:利用STRAIGHT合成器进行越南语语音合成是可行的。后续工作重点应为实现越南语文本的自动分析,以及提高合成语音的自然度。