基于HMM和小波的中英文语音的自动切分研究和实现

来源 :同济大学电子与信息工程学院同济大学 | 被引量 : 0次 | 上传用户：yangchao2005

【摘要】

：

本文广泛深入地研究、分析了当前国内外各种语音切分方法，并对各种方法的切分准确率进行了分析、比较。在此基础上，将小波理论和语音分析相结合，提出了基于小波包变换的语音特征

【作者】

：

陈锴

【机构】

：

同济大学

【出处】

：

同济大学电子与信息工程学院同济大学

【发表日期】

：

2004年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文广泛深入地研究、分析了当前国内外各种语音切分方法，并对各种方法的切分准确率进行了分析、比较。在此基础上，将小波理论和语音分析相结合，提出了基于小波包变换的语音特征参数用于语音的自动切分；在实现自动切分过程中，运用基于隐马尔可夫模型 (HMM) 的基本理论和算法，完成了HMM的建模、训练和切分；并对可能遇到的各种实际问题，提出了相应的解决方法；最终实现了基于隐马尔可夫模型 (HMM) 的语音自动切分系统。通过各种实验比较，给出了优化的模型配置，使切分性能得到明显的提高。本论文的主要贡献和创新为以下几点： 1、提出了基于小波包分解的语音特征参数用于语音的自动切分。将小波理论与语音感知特性相结合，运用小波包变换对语音进行变换，再按照类似于语音感知频带划分来选取小波子带，这种划分与人耳的临界频带相似，从而建立了基于小波包分解的语音特征参数WPP(Wavelet Packet Parameters)。实验证明WPP优于传统的语音特征参数 MFCC(Mel Frequency Cepstrum Coefficients)，使得语音切分的准确性得到了提高。 2、将RASTA滤波器用于改进语音参数。在对基于小波包分解的语音特征参数 WPP 的求解过程中添加了 RASTA(Relative Spectral)滤波器，对每个子带的能量谱进行滤波后，通过滤波后获得的语音参数用于语音自动切分。RASTA 滤波处理是用一个低端截止频率很低的带通滤波器对语音信号进行滤波处理。经过处理后，频谱中的常量或者变化缓慢的部分被抑制，动态成分被增强。通过 RASTA 滤波来增强小波子带参数的动态特性，实验证明改进的语音参数提高了语音切分的准确率。 3、通过主成份分析(PCA)方法获得时间过滤器用于改进语音参数。采用主成份分析(Principal Component Analysis，PCA)方法获得时间过滤器(Temporal filter)，这种滤波器有着和RASTA滤波器相同的特性，增强了小波子带参数的动态成分。通过详细的比较分析，已证实通过主成份分析(PCA)方法获得时间过滤器对语音参数的改进可以提高语音切分的准确性。 4、采取有标记初始化的方法来初始化HMM的模型。 HMM模型初始化的好坏直接影响HMM模型的训练和最终的切分结果。我们比较了有标记和无标记的HMM模型初始化，发现通过有标记初始化的HMM模型的语音切分结果的准确性明显高于无标记初始化的HMM模型的语音切分结果。我们分析了语音初始化实验结果，可以看出在连续语流中选取语音样本用作HMM模型初始化训练切分，比参考种子字从语料中提取典型单音数据作为初始化样本来训练切分的准确性要高。因此，我们在语音切分中都采取从连续语流中选取语音作为HMM模型初始化训练样本的方法。 5、根据所建立的语音库语音特点和差异，对中英文语音模型进行了修正和优化。每种语言语音库都有各自的特点，而且不同人朗读的语音也是有差异的，这些特点和差异直接影响到模型的建立和选取。所以需要根据不同的语音发音特点和朗读差异，对模型进行了修正和优化。在英文中我们对辅音连缀 dr,dr,dz，ts分别建立了模型，这些辅音连缀在发音过程中出现了比较明显的协同发音，与单独发音的t、r、z、s有着明显的不同，并根据英文发音中的失爆现象对词内的两个爆破音相连的第一个爆破音另建失爆模型；同时我们对中文中y，w相关的声韵模型进行了合并优化，因为在实际发音中y和w都存在不发音的现象。通过模型的修正和优化，使得语音切分的准确性得到了提高。 6、提出了一种静音自动鉴别和处理的方法，以提高语音切分的正确性。在通过录音建立语音语料库的过程中，经常会出现一些停顿和呼吸，我们将这些能量很小的静音段、噪音和呼吸声统称为静音。而这些静音如果未标注在所对应的文本之中，这将直接影响到语音自动切分的准确性。因此，需要将这些静音以约定的标记(sil)添加到文本中。本文提出了一种静音自动鉴别和处理的方法，在经过语音粗切分后，通过规则设定、短时能量、短时过零率和算法修正几个步骤，将静音寻找出来，从而提高了语音切分的准确性。关键词：小波包变换，语音感知，RASTA，主成分分析，隐马尔可夫模型，自动切分，静音

其他文献

高压溶出过程苛性比值与溶出率软测量计算机系统开发

氧化铝高压溶出过程是极其复杂的生产过程，其目的就是在高温、高压的工艺条件下，用苛性钠溶液把铝土矿中的氧化铝溶出。苛性比值与溶出率是高压溶出过程中两个非常重要的经济技

学位

苛性比值溶出率软测量通信技术数据库技术

中性点非直接接地系统单相接地故障选线研究

中性点非直接接地系统发生单相接地故障时,快速准确地选出故障线路,对于系统的安全、可靠运行具有十分重要的意义,但是迄今为止选线问题仍未得到很好解决.论文首先对单相接地

学位

中性点非直接接地系统故障选线小波变换零序电流暂态分量MSP430F149芯片

不确定时滞模糊系统的鲁棒控制

本文在回顾目前模糊控制系统设计研究的基础上，首先给出了不确定模糊控制系统的鲁棒方差状态反馈控制器设计方法和使闭环系统渐近稳定的充分条件。接着分析了不确定时滞模糊系

学位

模糊控制系统不确定时滞鲁棒稳定状态反馈

数据访问层设计方法研究

在企业中各种信息系统广泛要求集成的今天,异构的多数据库应用需求和可迁移的数据库应用需求成为必须解决的问题,而在此基础上改进占软件系统重要地位的数据库应用体系结构的

学位

数据访问层软件体系结构面向对象的分析

XML数据存储与检索研究

近年来，XML已逐渐成为科学与业务应用中数据表示以及应用间数据交换的标准格式。为实现XML的潜能，XML数据的有效存储是一个必须首先要解决的技术环节。论文在引出XML数据存

学位

XML关系数据库数据存储文本对象模型Agent

长时延网络控制系统容错控制研究

网络控制系统中的数据传输是由通信网络完成的，系统结构复杂，空间分布广。在工程实践中，当系统发生故障，若没有足以应对的安全措施，将可能造成严重的财产损失和人身伤害，因此对网络

学位

网络控制系统长时延容错控制执行器完全失效部分失效

数字水印技术在广播系统中的应用

数字水印是一种被嵌入到载体数据中，具有安全性、鲁棒性和不可感知性的数字编码。在广播系统中，数字水印技术在版权保护、防非法拷贝、使用追踪以及数据完整性认证等方面都发挥

学位

信息安全音频鲁棒水印音频扩频水印能量差分水印版权保护心理声学模型MDCT

基于手臂机器人控制的远程实验系统

实验教学是大学教育中非常重要的一个环节，但是传统实验教学存在着实验安排不灵活，仪器维护困难等弊端。虚拟实验室的诞生在很大程度上解决了传统实验教学中存在的问题，但是虚拟

学位

远程实验系统手臂机器人后台控制服务器TCP

基于数字地图的无人战斗机低空突防轨迹规划方法研究

在无人战斗机进行低空突防任务时，如何提高生存率是关键。而要提高任务生存率，飞行前的全局轨迹规划和飞行中的实时轨迹规划就显得相当重要。本文就是围绕着这一点展开的。

学位

任务生存率轨迹规划二维三次卷积插值二维四次卷积插值三次样条插值威胁回避地形回避LOS遗传算法

基于USB接口的数据采集系统及其应用

本文将USB(Universal Serial Bus)接口技术与控制系统中传统的数据采集环节结合起来，设计实现了基于USB接口的数据采集系统。文中详细的阐述了USB接口硬件电路的设计过程、固

学位

USB数据采集驱动程序WDMDDK

基于HMM和小波的中英文语音的自动切分研究和实现

其他学术论文