论文部分内容阅读
近几年随着计算机和智能手机的发展,当今社会已经逐渐步入人工智能时代。语音是人类最便捷的交流方式,这使得人机语音交互成为研究热点,许多科学家开始关注人机语音交互,实现人机的顺畅沟通,彻底解放人类的双手,方便人类的生活。语音关键词检测技术是语音识别方向的一个研究热点,它不需要将所有的语音内容识别出来,只需要从一段连续语音中检测出若干个设定的关键词,在电话监控、智能家居和智能音箱等多个领域被广泛应用。本文提供了一种低数据资源场景下基于互补模型评分融合的语音关键词检测方法,在利用音频经验轨迹对关键词进行建模的基础上,借鉴说话人识别的i-vector(Identity Vector)技术引入w-vector(Word Vector)的关键词建模方法,用具有一定信息表达互补的模型解决单一模型信息表达不充分的问题。对两种算法的评分进行融合,获得区分信息的互补性,从而解决单一模型判决不可靠的问题。本文的主要工作如下:1.实现了一种基于音频经验轨迹的关键词检测方法。该算法主要包括三个步骤:利用高斯分布构建语音特征空间、计算每个关键词的音频特征在语音特征空间上的类属性分布以及音频样本的标识子间转移概率。进行了一系列的算法性能实验,探究窗长、特征空间标识子的个数、标记数据量、相似度计算方法这些参数对算法性能的影响。2.实现了一种基于w-vector的关键词检测方法。将说话人识别中的i-vector方法应用在语音关键词检测中,为每个关键词构建代表关键词身份的矢量特征,本文称之为w-vector。通过计算每个关键词的高斯超矢量并利用因子分析对高斯超矢量降维得到每个关键词的w-vector,在检测时通过计算音频段与每个关键词的w-vector的PLDA(Probabilistic Linear Discriminant Analysis,PLDA)评分得到检测结果。3.实现了一种基于互补模型评分融合的关键词检测方法。提出关键词候选点的概念,主要依据是两种算法所得评分曲线的极大值位置。对关键词候选点所在位置的评分进行加权融合,作为关键词检测的判决依据。对10个关键词进行检测,得到错误拒绝率和错误接受率分别是0.195和0.197。将基于互补模型评分融合的方法与仅基于音频经验轨迹的方法或仅基于w-vector的方法进行比较,验证互补模型评分融合方法的有效性,并与现有算法进行了性能对比,验证了在低数据资源场景下,基于互补模型评分融合的关键词检测方法实现的效果比基于隐马尔可夫模型的方法和基于神经网络的方法好。