论文部分内容阅读
本文广泛深入地研究、分析了当前国内外各种语音切分方法,并对各种方法的切分准确
率进行了分析、比较。在此基础上,将小波理论和语音分析相结合,提出了基于小波包变换
的语音特征参数用于语音的自动切分;在实现自动切分过程中,运用基于隐马尔可夫模型
(HMM) 的基本理论和算法,完成了HMM的建模、训练和切分;并对可能遇到的各种实
际问题,提出了相应的解决方法;最终实现了基于隐马尔可夫模型 (HMM) 的语音自动切
分系统。通过各种实验比较,给出了优化的模型配置,使切分性能得到明显的提高。
本论文的主要贡献和创新为以下几点:
1、 提出了基于小波包分解的语音特征参数用于语音的自动切分。
将小波理论与语音感知特性相结合,运用小波包变换对语音进行变换,再按照类似于语
音感知频带划分来选取小波子带,这种划分与人耳的临界频带相似,从而建立了基于小波包
分解的语音特征参数WPP(Wavelet Packet Parameters)。实验证明WPP优于传统的语音特征
参数 MFCC(Mel Frequency Cepstrum Coefficients),使得语音切分的准确性得到了提高。
2、将RASTA滤波器用于改进语音参数。
在对基于小波包分解的语音特征参数 WPP 的求解过程中添加了 RASTA(Relative
Spectral)滤波器,对每个子带的能量谱进行滤波后,通过滤波后获得的语音参数用于语音自
动切分。RASTA 滤波处理是用一个低端截止频率很低的带通滤波器对语音信号进行滤波处
理。经过处理后,频谱中的常量或者变化缓慢的部分被抑制,动态成分被增强。通过 RASTA
滤波来增强小波子带参数的动态特性,实验证明改进的语音参数提高了语音切分的准确率。
3、通过主成份分析(PCA)方法获得时间过滤器用于改进语音参数。
采用主成份分析(Principal Component Analysis,PCA)方法获得时间过滤器(Temporal
filter),这种滤波器有着和RASTA滤波器相同的特性,增强了小波子带参数的动态成分。通
过详细的比较分析,已证实通过主成份分析(PCA)方法获得时间过滤器对语音参数的改进可
以提高语音切分的准确性。
4、 采取有标记初始化的方法来初始化HMM的模型。
HMM模型初始化的好坏直接影响HMM模型的训练和最终的切分结果。我们比较了有
标记和无标记的HMM模型初始化,发现通过有标记初始化的HMM模型的语音切分结果的
准确性明显高于无标记初始化的HMM模型的语音切分结果。我们分析了语音初始化实验结
果,可以看出在连续语流中选取语音样本用作HMM模型初始化训练切分,比参考种子字从
语料中提取典型单音数据作为初始化样本来训练切分的准确性要高。因此,我们在语音切分
中都采取从连续语流中选取语音作为HMM模型初始化训练样本的方法。
5、 根据所建立的语音库语音特点和差异,对中英文语音模型进行了修正和优化。
每种语言语音库都有各自的特点,而且不同人朗读的语音也是有差异的,这些特点和差
异直接影响到模型的建立和选取。所以需要根据不同的语音发音特点和朗读差异,对模型进
行了修正和优化。在英文中我们对辅音连缀 dr,dr,dz,ts分别建立了模型,这些辅音连缀在发
音过程中出现了比较明显的协同发音,与单独发音的t、r、z、s有着明显的不同,并根据英
文发音中的失爆现象对词内的两个爆破音相连的第一个爆破音另建失爆模型;同时我们对中
文中y,w相关的声韵模型进行了合并优化,因为在实际发音中y和w都存在不发音的现象。
通过模型的修正和优化,使得语音切分的准确性得到了提高。
6、 提出了一种静音自动鉴别和处理的方法,以提高语音切分的正确性。
在通过录音建立语音语料库的过程中,经常会出现一些停顿和呼吸,我们将这些能量很
小的静音段、噪音和呼吸声统称为静音。而这些静音如果未标注在所对应的文本之中,这将
直接影响到语音自动切分的准确性。因此,需要将这些静音以约定的标记(sil)添加到文本
中。本文提出了一种静音自动鉴别和处理的方法,在经过语音粗切分后,通过规则设定、短
时能量、短时过零率和算法修正几个步骤,将静音寻找出来,从而提高了语音切分的准确性。
关键词:小波包变换,语音感知,RASTA,主成分分析,隐马尔可夫模型,自动切分,静音