论文部分内容阅读
随着语音合成技术的进步,语音合成系统开始走向大规模应用的时代。特别是随着可训练语音合成技术(Trainable TTS)合成效果的逐步改善,以及该技术适用于嵌入式低存储空间的特点,极大地推动了语音合成技术的产业化发展。同时,语音合成系统对构建语音合成系统的语音库也提出了更高的要求,特别是在多样化语音合成方面的需求,如口音上的差异,使得语音合成系统经常需要重新构建。但是,传统的语音库构建方法,也就是人工构建方法,存在周期长、一致性差、耗费资源等缺点,并且基于该语音库的合成系统合成的语音表现力差。在这种背景下,一种能够在短时间内且极少人工干预下通过自动训练的方式构建语音合成系统语音库,能够满足多样化语音合成需求的技术,有着很高的理论研究及使用价值。对此,本论文在基于HMM的可训练语音合成系统的语音库自动构建方面,包括技术框架构建、关键技术以及相关技术应用,进行了深入而系统的研究,本论文具体的研究工作和研究成果如下:首先提出了一个基于音频分类算法的语音探测技术去除带有音乐的音频文件,保留纯话语音频。该音频分类算法融合了高斯混合模型(GMM)和时长可变隐马尔科夫模型(VDHMM)。该算法,首先通过高斯混合模型分类音频的每一帧,然后通过时长可变隐马尔科夫模型的Viterbi算法根据似然值最大化准则将已分类帧组合成段,完成音频分类。其次,提出了一个句子自动切分算法。在该算法中,首先通过基于隐马尔科夫模型的无监督的方法训练音素隐马尔科夫模型,并通过强制对齐(forced-alignment)技术将篇幅的音素序列和篇幅文本对齐;然后根据句子结束符号(如句号、问号、感叹号等)来切分句子;最后通过一个检查机制,来判断该句子结束符号是否正确,进而获得被正确切分的句子。第三,提出了一个改进的句子切分算法。该方法能得到更高的句子切分准确率,获得更多的正确切分句子。该改进算法基于一个迭代过程,过程如下:1)根据正确的句子结束符号切分篇幅语音获得段落语音和句子语音,利用该结果训练更为精确的音素隐马尔科夫模型;2)然后通过强制对齐技术将该段落语音和句子语音的音素序列和文本对齐;3)根据正确的句子结束符切分该段落语音和句子语音。循环1-3,直到没有更多的段落和句子数目被切分出来。此外,提出了在限定文本条件下的语料库自动构建方法。在该方法中,首先是使用改进的Okapi公式来计算句子分数;然后反复地选择分值较高的句子替换语料库句子中分值较低的语料库句子直到语料库句子分数小于某一阈值;最后基于语料库句子,构建可训练语音合成系统的语音库。实验表明我们提出的技术方法能在基本无人工干预下快速、自动地构建应用于Trainable TTS的语音库。