基于小波能量的语音识别特征参数提取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:quiet11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提取和选择最优的特征参数来表示语音信号对任何语音系统的设计都是一项非常重要的工作,它对语音识别系统的好坏起着关键的作用。在语音识别中,特征参数的提取一般是基于信号的短时平稳特性的,即通常假设语音信号在一短段范围内是稳态的。但实际上,语音中的爆破音、辅音和元音的过渡段等由于它们具有瞬时性和强随机性并不能认为是短时平稳的,因此,利用传统的特征参数提取方法时存在着一定的不足。  小波分析是近些年迅速发展起来的新兴学科,在图像处理、语音信号处理等领域有着广泛的应用。它具有多分辨分析的特点,是一种窗口大小固定不变,但其形状可以改变的时频局部化分析方法。很适合于探测正常信号中夹带的瞬变反常信号并分析其成分,被誉为分析信号的“显微镜”。  本文针对语音识别特征参数提取中存在的不足,引入了小波变换方法,提出了一种将传统的梅尔倒谱系数,其一阶差分和小波能量相结合的特征参数MFCC-DWE(MelFrequencyCepstrumCoefficient-DiscreteWaveletEnergy)。该方法首先对预处理后的每一帧语音信号进行梅尔倒谱系数的计算,提取出12维的系数,并求其一阶差分(12维);之后对这一帧语音信号进行不同分辨率下的二进离散小波变换,对每个分辨率下的近似系数计算其能量值,将各分辨率下的能量值作为一个特征向量,组成小波能量特征。最后对上述的三种特征分别进行矢量量化,作为一帧语音信号的特征进行训练识别,并给出了新特征参数理论上的分析。  最后,将结合的特征参数与未增加小波能量的特征参数进行对比实验,结果表明,新结合的特征参数优于传统的Mel倒谱系数,提高了系统的识别率。
其他文献
随着分布式数据库系统发展,传统的C/S访问模式会对数据库服务器产生瓶颈效应,因此引入移动agent进行分布式数据库访问系统设计,这样可以减少对网络带宽的依赖。另外随着移动设备
中间业务属于新兴的银行业务,主要是为客户提供多种金融服务。银行开办中间业务既可以树立良好的公众形象,也可以取得可观的经济效益,它是银行发展的重要发展方向。随着中间业务
物体表征和识别是模仿人类视知觉能力的一个重要课题,但任务艰难。为了取得更好的效果,我们需要从人类的视知觉机制上有所借鉴。人类视知觉是源自于数亿年的进化而产生的复杂
随着Internet的飞速发展,人们越来越多地感受到它带来的好处,但是Internet所面临的安全状况日益复杂。目前,网络蠕虫已经成为了互联网的首要安全威胁之一,蠕虫的爆发经济损失
最近二十年来,图像和视频压缩取得了很大的进步。就压缩效率来说,最新的JPEG2000和MPEG-4 H.264/AVC大大的超过了它们的前几代标准。然而众所周知,任何判断标准都没有视觉质
最大独立集(Maximum Independent Set,MIS)问题是图论中的经典组合优化问题,是NP完备的。分布式环境(如:传感器网络)中的MIS算法的优化对分布式系统的效率和稳定性都有重要意
随着网络的迅速发展,在浩如大海的网络信息中,找到需要的信息,越来越费时费力。如何快速有效地找到有用信息成为当务之急,搜索引擎孕育而生,成为当今网络中最重要的服务之一。搜索
迁移工作流系统是近年来工作流管理研究的热点。由于迁移工作流模型的建立和完善贯穿在整个工作流系统从设计到运行结束的全过程,具有动态过程定义和复杂的框架结构,致使其至今
作为目前高性能计算的主流技术,集群系统在各种高性能计算应用领域得到了广泛的应用。而且,随着不同种类网格概念的出现,异构集群系统已经成为网格关键技术的最主要研究测试平台
Internet特有的时效性使得网络新闻正迅速进入人们的日常生活,与传统新闻相比,网络新闻具有多种优势,读者可以在网络上第一时间看到世界各地的新闻,容量大信息丰富,表现形式多样,新