嘈杂声学环境下的时频语音出现概率与噪声功率谱估计

来源 :北京理工大学 | 被引量 : 2次 | 上传用户:lxg888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音出现概率与噪声功率谱是语音增强所依赖的基本前提,它们对噪声消除的结果有着决定性的影响。语音出现概率与噪声功率谱估计是两个等效问题,从一个问题的解可以推导出另一个解。本文关注的焦点在于利用统计模型推导出两个最优解。传统的统计模型建模方法是启发式的,在模型参数的更新过程中采用了大量的经验规则,甚至某些重要的参数直接由经验给出。启发式的方法使得模型参数对数据的自适应能力差,难以保证最优解。此外,传统的建模方法是半监督式的。它们通常假定输入语音是以非语音起始的,起始部分的非语音可视作被标记的样本,用于监督式建模,在后续更新中采用决策导向的非监督方法更新模型,因而在整体上视为半监督式的建模。然而,在实际应用中输入语音经常以语音信号起始,因而半监督式建模方法不能满足实际需求。针对传统方法存在的问题,本文提出了一种基于非监督聚类的最优估计方法,在极大似然准则指导下求解聚类模型的参数,从而保证了语音出现概率和噪声功率谱的解是最优的。具体采用二元高斯混合模型(GMM)和隐马尔可夫模型(HMM)作为聚类模型,将语音和非语音聚类看作模型的两个“元”。本文中,聚类过程等同于模型参数的估计过程,噪声功率谱的解则由聚类均值表示,语音出现概率(SPP)则由聚类的统计特征导出。由于聚类是非监督式的建模方法,它不需要非语音起始假设,比传统的建模方式更贴近于实际应用。论文的具体贡献和创新性研究成果简述如下:1.提出了二元GMM的非监督离线建模方法,对每个子带上的对数功率谱包络建模,采用经典的EM方法实现最优估计。2.提出了二元HMM的离线建模方法。HMM相比于GMM的优势在于它考虑了谱包络的时间相关性,它将子带上的功率谱包络视作在语音和非语音状态之间动态转移的状态序列,EM方法使得时间相关性自适应于观察数据。3.在经典的EM方法基础上,实现了一个近似最优的GMM参数在线估计,GMM的参数集逐帧更新,同时逐帧输出检测与估计结果。4.提出HMM的在线似然函数,并在似然函数的基础上,根据牛顿迭代法推导出HMM参数集的一阶递归过程,实现参数的逐帧最优更新。5.针对功率谱包络的统计特征,提出约束二元GMM/HMM模型的方法,使得模型在语音长时缺失的情况仍然保持稳定。
其他文献
随着多媒体技术的不断发展,视频通信在人们的日常交流方式中所占比重逐年增加,逐渐成为信息时代不可或缺的沟通利器。近几年来,日益增长的视频应用需求促使视频压缩编码技术
班主任工作有相通之处,无论是高年级,还是低年级的班主任,首要的前提是要有足够的耐心面对学生,所不同的是低年级的班主任要有更大的忍耐力,更持久的工作作风。面对千差万别的学生
临海是国家历史文化名城.近年来,继承古城文化、发展经济,注重环境保护和生态建设,成为临海城市建设的特色.
作为大学软环境的重要组成部分,校园文化对创新人才的培养有着不可替代的作用。我国大学校园文化功利化、虚拟化、模式化的现状与趋势在大大影响大学软实力的同时也严重阻碍
电子商务就是网络平台, 交易各方都会借助电子技术和网络技术来进行各种经济贸易, 所以, 它是与网络技术相结合,随快速的发展趋势而形成的经济产物.随着我国各类电子技术和支
目的探讨改良后置环磷酰胺体系下,异基因单倍型造血干细胞移植治疗重型再生障碍性贫血(severe aplastic anemia,SAA)的临床疗效及安全性。方法回顾性分析2015年5月至2018年10
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
调强放疗(intensity modulated radiation therapy,IMRT)已经逐渐成为鼻咽癌放疗的主流技术,其在保证靶区受到高剂量照射的同时减少靶区周围重要器官的照射剂量,最大限度地保护
中国城市大气污染日趋严重 ,汽车尾气污染所占比重越来越大。交通、道路、管制及气候条件等是影响城市机动车尾气排放的主要因素。本文根据机动车尾气研究的实际 ,研究了专题 G IS数据库结构 ,并以广州为例 ,建立了基于 GIS的城市机动车尾气扩散迁移预报系统 ,在此基础上实现了机动车尾气污染状况的可视化
元素化合物教学的“三线”指知识线、技术线和情感线。知识线反映了知识之间的联系,技术线体现了学科的认知方法,情感线则让知识与技术和谐交融,使课堂教学活动成为一个完整