论文部分内容阅读
语音端点检测是语音分析、语音合成和语音识别中的一个重要环节。在实际运用中,通常要求首先对系统的输入信号进行判断,准确的找出语音信号的起始点和终止点。这样才能采集到真正的语音数据,减少数据量和运算量,并减少处理时间。因此语音端点检测算法研究意义重大。本文首先介绍了几种典型的语音端点检测算法。随后对三种语音端点检测算法进行研究。算法一:在对信息熵原理理解的基础上,分析了语音信号与背景噪声的幅度熵及谱熵的差异,并根据这些差异进行了基于幅度熵和谱熵的语音端点检测算法研究,仿真实验结果表明该方法检测准确率较高。算法二:在对信息熵语音端点检测研究的基础上,结合神经网络在模式分类方面的优越特性,提出了基于信息熵和神经网络的语音端点检测算法,该算法针对语音信号和背景噪声进行建模,把语音信号端点检测问题看作是对每帧信号进行分类,通过建立相应的模型,根据模型的匹配程度对每帧语音矢量进行划分,确定其属于语音或背景噪声。仿真实验表明,该算法在检测准确率上要优于信息熵语音端点检测算法,且避免了常规方法需要设置阈值门限这一难点。算法三:语音信号端点检测研其本质是区分语音与背景噪声。语音与背景噪声的划分不是绝对的,分界处的语音信号有可能属于语音,也有可能是背景,因此语音端点检测属于边界分类模糊问题。而模糊技术在处理边界模糊问题上具有独特的优势,通过对语音数据的模糊化,结合对神经网络语音端点检测的研究,提出了基于模糊神经网络的语音端点检测算法。仿真实验表明,该算法在检测准确率上是本文研究的三种算法中最高的,但该算法的缺点是算法复杂。文章最后对本文所研究的三种算法进行了总结,提出了一些在今后工作中需要进一步研究的问题,并对近几年来出现的一些研究新方向作了简单的介绍和展望,指出了端点检测未来的发展前景。