论文部分内容阅读
随着人机语音通信的发展,语音合成系统成为了当前研究的热点。影响合成音质的因素包括文本分析技术、韵律规则、合成基元数据库质量以及拼接技术等。本文主要研究普通话合成基元数据库的设计与搜索,数据库的基元是直接从自然语音中截取的,且拥有多个样本,包含了足够的韵律和谱变化。由于合成时根据搜索算法,挑选拼接代价最小的样本直接拼接,避免了采用信号处理技术修饰韵律对音质的损害,所以最大限度的保留了语音的自然度。 为了确定合适的基元,在此我们对不同种类基元的语音学特点进行了分析。由于普通话是基于音节的语言,有规则的CV(Consonant+Vowel)结构音节,同一个音节的音素之间有很强的协同发音,而音节边界音素之间的协同发音相对较弱,因此“带有声调的音节”被选为合成基元。 通过对普通话发音特点的分析,将音节的韵律特征用一个五维语境向量DCVV(Descriptive Contextual Variation Vector)来表示。为了在拼接时搜索出恰当韵律的基元,我们设定并优化了语境向量元素距离表。设计过程同样基于普通话的发音特点,考虑到语音的平均拼接代价和平均意见得分有较强的关联,因而对语境向量距离表的优化通过提高AvCCost和MOS的相关系数来实现。这里采用少量数据进行了Matlab仿真实验,结果证明该优化方法是可行的。 我们还将GSM13kb/s RPE-LTP和ADPCM两种语音压缩编码方法用于基元库,进一步减小了数据库容量。可以根据速率和语音质量需求选择不同的压缩算法。 最后介绍了两种合成基元搜索方法。对于基元样本少的系统,使用顺序搜索方法;对于基元样本多的系统,为了提高搜索效率,需要为每个基元构建一棵索引树,采用树搜索。