基于语音样例查询的关键词识别方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:blankduckying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于语音样例查询的关键词识别是关键词识别的一个重要分支,该类关键词识别不需要考虑关键词对应的文本信息就能够从音频数据中快速地搜索并返回与查询关键词相关语音段。因此,该方法主要应用于缺乏语音资源和语音学知识的小语种。近年来,随着国际化进程的不断加快,针对小语种的语音处理特别是关键词识别迅速进入人们的视野,成为现阶段语音处理的一个热点问题。本论文主要针对该领域的两个问题进行研究:第一,相对于传统声学特征,具有更高可区分性特征的研究:第二,针对采用隐马尔可夫模型(Hidden Markov Model,HMM)的关键词建模识别,研究样本稀缺情况下关键词模型的训练方法。近年来,随着学习方法的不断改进,深度神经网络(Deep Neural Network,DNN)在模式识别中得到了诸多成功的应用,引起了学术界广泛的关注。在语音识别中,基于DNN状态输出的DNN-HMM相比高斯混合模型(Gaussian Mixture Model, GMM)-HMM基线系统大大降低了语音识别词错误率。而由具有狭窄中间层,也称为瓶颈层(BottleNeck, BN)的DNN提取出的BN特征在GMM-HMM基线系统中也取得了接近DNN-HMM模型的语音识别词错误率。本文在相同的关键词识别框架下比较两种不同的特征:感知线性预测(Perceptual Linear Prediction, PLP)和BN特征,找出具有更高区分性的特征以提高识别系统性能。在基于语音样例查询的关键词识别中,采用统计建模的方法可以提升模型的稳健性。然而,在该类关键词识别中,关键词训练样本的数量极度缺乏,仅有十到二十个左右甚至更少。在这种情况下,如何更加充分的利用关键词样本中的包含的有效信息非常重要。本文在HMM识别框架中,使用最大后验概率(Maximum a Posterior)方法建立关键词模型,提高了识别系统在资源稀缺情况下的识别性能。另外,还验证了三种模型训练方法在关键词变化的情况下的有效性。本文提出的算法在标准的TIMIT及藏语数据库上进行了实验,从实验结果上证明了这些算法的有效性。
其他文献
本课题针对火炮膛压专用测试仪器—放入式电子测压器,在测试过程中无法接触上电的问题。研究了几种倒置开关。此种开关是一种新型开关,具有低电压驱动、低功率损耗、微小体积、延时功能、适用于批量生产的微型器件,其工作时不需要人为接触操作,只需要将开关倒置,就能实现‘关’状态和‘开’状态的单向转换。首先研究了由活塞或类似活塞的结构制作的倒置开关。分别利用水银、双球和磁铁作为开关内部活动滑块制作了水银、双球和干
近年来,随着蜂窝网络中移动设备数量和无线数据流量的爆炸式增长,网络内产生了严重的流量拥塞问题。传统的同构网络已经难以应对数据量的持续增长以及满足用户对于通信质量的
随着3G移动通信系统逐步成熟,3GPP早已开始了对其长期演进(LTE)系统的研究和标准化工作。与3G相比,LTE更具技术优势,具体体现在:高数据速率、分组传送、延迟降低、广域覆盖和向下
在临床医学影像中,核磁共振技术(Magnetic Resonance Imaging, MRI)作为一种极为重要的医学辅助于段,有着无与伦比的优势,对软组织有极强的分辨率,没有电离辐射,成像方位多样
汽车的智能测距防撞已经成为国际上研究的热点问题。实际使用中,绝大多数的汽车防撞系统都是基于测距的,具有简单,便捷,造价低的优点。本文首次提出将防偏车道与测距防撞联系
中继技术可以提高通信系统的覆盖范围,增强数据传输的可靠性;多输入多输出(Multiple Input Multiple Output, MIMO)技术可以提供空间自由度,进而提供空间复用增益和分集增益,提
在当今社会,随着计算机及通信技术的发展,越来越多的业务需要信息技术的支持。其中,绝大部分的信息是以图像信息的形式表示的。它们以数字化的方式表示、存储、记录和传输,这