论文部分内容阅读
语音出现概率与噪声功率谱是语音增强所依赖的基本前提,它们对噪声消除的结果有着决定性的影响。语音出现概率与噪声功率谱估计是两个等效问题,从一个问题的解可以推导出另一个解。本文关注的焦点在于利用统计模型推导出两个最优解。传统的统计模型建模方法是启发式的,在模型参数的更新过程中采用了大量的经验规则,甚至某些重要的参数直接由经验给出。启发式的方法使得模型参数对数据的自适应能力差,难以保证最优解。此外,传统的建模方法是半监督式的。它们通常假定输入语音是以非语音起始的,起始部分的非语音可视作被标记的样本,用于监督式建模,在后续更新中采用决策导向的非监督方法更新模型,因而在整体上视为半监督式的建模。然而,在实际应用中输入语音经常以语音信号起始,因而半监督式建模方法不能满足实际需求。针对传统方法存在的问题,本文提出了一种基于非监督聚类的最优估计方法,在极大似然准则指导下求解聚类模型的参数,从而保证了语音出现概率和噪声功率谱的解是最优的。具体采用二元高斯混合模型(GMM)和隐马尔可夫模型(HMM)作为聚类模型,将语音和非语音聚类看作模型的两个“元”。本文中,聚类过程等同于模型参数的估计过程,噪声功率谱的解则由聚类均值表示,语音出现概率(SPP)则由聚类的统计特征导出。由于聚类是非监督式的建模方法,它不需要非语音起始假设,比传统的建模方式更贴近于实际应用。论文的具体贡献和创新性研究成果简述如下:1.提出了二元GMM的非监督离线建模方法,对每个子带上的对数功率谱包络建模,采用经典的EM方法实现最优估计。2.提出了二元HMM的离线建模方法。HMM相比于GMM的优势在于它考虑了谱包络的时间相关性,它将子带上的功率谱包络视作在语音和非语音状态之间动态转移的状态序列,EM方法使得时间相关性自适应于观察数据。3.在经典的EM方法基础上,实现了一个近似最优的GMM参数在线估计,GMM的参数集逐帧更新,同时逐帧输出检测与估计结果。4.提出HMM的在线似然函数,并在似然函数的基础上,根据牛顿迭代法推导出HMM参数集的一阶递归过程,实现参数的逐帧最优更新。5.针对功率谱包络的统计特征,提出约束二元GMM/HMM模型的方法,使得模型在语音长时缺失的情况仍然保持稳定。