基于MPEG-Ⅰ和小波包分解的说话人识别

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:wangjuhui19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,达到对说话人进行辨认或者确认的目的。与文本无关的说话人识别具有用户使用方便、可应用范围较宽等优点,是当前说话人识别技术的研究重点。对于与文本无关的说话人识别系统,因为去除了特征提取对于文本的依赖,研究的重心主要集中在对于说话人个性特征的提取上,而寻找新的有效的说话人特征参数和已有说话人特征的有效组合始终是这方面研究的热点。 本文对文本无关说话人识别系统中的特征参数进行了研究,主要是研究如何提取出具有高识别率和鲁棒性的语音特征。本文的主要工作有三个方面: (1)根据人耳的听觉感知特性,对语音信号的成分进行了研究。利用MPEG心理声学模型I对语音信号进行了分解,去除了被掩蔽部分语音对于特征提取的干扰。经过试验证实,这种方法有效地提高了系统的识别率,同时也提高了识别的鲁棒性。 (2)为了模拟Mel倒谱滤波的过程,利用小波包多分解的特性,对语音信号进行多尺度的分解。此方法替代了MFCC求解过程中的Mel滤波和傅立叶变换FFT,简化了求解的过程。经试验证实,通过此方法得到的小波包分解系数(WTPC)比MFCC有更好的识别率。 (3)利用RBF网络的结构,设计了本试验中使用的识别系统,为每个说话人人提供一个学习和模拟的子网,有效地降低了其他说话人特征矢量对当前说话人的影响。
其他文献
人群行为分析和异常检测是计算机视觉、模式识别和智能交通等的交叉研究领域,近几年已成为人工智能和视频监控技术等方面的研究热点。本文针对简单无结构场景和复杂结构化场景
目前在PC和工作站上,文字和数字处理的软件发展良好,以MS Word、MS Excel、MS PowerPoint为代表,包括WPS,另外有PDF格式的文本处理。随着多媒体的实现,在Word中集成了多种对
计算机网络会议是一个同步协作会议,通过网络会议,不同地区的与会者们能够使用与网络相连的计算机共同协作完成某些交互程序,例如:董事会议、科学讨论甚至是虚拟教室。在网络
随着Internet的强势发展,网络上的信息量成爆炸趋势增长,如何使人们快速、准确的在浩瀚的资源中发现自己需要的信息成为关键。目前的搜索引擎虽然在一定程度上缓解了这一矛盾
近年来随着Internet的飞速发展、网络带宽的成倍增加以及计算机计算能力的大大提高,对等网络(Peer-to-Peer,简称P2P)成为了计算机网络技术研究领域的一个热点。P2P网络通过对
如今,机器人在人们的日常生活中扮演了越来越重要的角色,从服务型机器人,到娱乐型机器人,种类越来越繁多,应用越来越广泛,机器人的结构也越来越复杂。机器人控制系统是移动机
随着计算机网络技术和通信技术的高速发展,网络安全和数字签名技术已经引起人们的密切关注,逐步成为计算机科学研究的热点领域。而普通的数字签名技术已经不能满足许多应用的
网格能充分利用因特网上丰富的闲置资源,协同解决复杂的科学或商业问题。当移动设备或人作为新型移动节点加入网格时,传统的网格计算环境扩展为无线移动网格计算环境,此时基
企业过程工程(Business Process Engineering)是指用系统工程的方法指导企业过程的开发和运作,它包括企业过程的定义、模拟、优化和运作四个阶段。企业过程模拟是对企业模型
随着互联网的高速发展,网络中的信息量呈爆炸式增长,互联网已经成为人们获取信息的最主要渠道之一。作为信息检索过程中不可缺少的重要工具,搜索引擎在给人们带来便利的同时,