基于互补模型评分融合的语音关键词检测方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：jsptpd_dryy

【摘要】

：

近几年随着计算机和智能手机的发展,当今社会已经逐渐步入人工智能时代。语音是人类最便捷的交流方式,这使得人机语音交互成为研究热点,许多科学家开始关注人机语音交互,实现

【作者】

：

李黎晗

【出处】

：

华南理工大学

【发表日期】

：

2004年期

【关键词】

：

语音关键词检测音频经验轨迹 w-vector 评分融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几年随着计算机和智能手机的发展,当今社会已经逐渐步入人工智能时代。语音是人类最便捷的交流方式,这使得人机语音交互成为研究热点,许多科学家开始关注人机语音交互,实现人机的顺畅沟通,彻底解放人类的双手,方便人类的生活。语音关键词检测技术是语音识别方向的一个研究热点,它不需要将所有的语音内容识别出来,只需要从一段连续语音中检测出若干个设定的关键词,在电话监控、智能家居和智能音箱等多个领域被广泛应用。本文提供了一种低数据资源场景下基于互补模型评分融合的语音关键词检测方法,在利用音频经验轨迹对关键词进行建模的基础上,借鉴说话人识别的i-vector(Identity Vector)技术引入w-vector(Word Vector)的关键词建模方法,用具有一定信息表达互补的模型解决单一模型信息表达不充分的问题。对两种算法的评分进行融合,获得区分信息的互补性,从而解决单一模型判决不可靠的问题。本文的主要工作如下:1.实现了一种基于音频经验轨迹的关键词检测方法。该算法主要包括三个步骤:利用高斯分布构建语音特征空间、计算每个关键词的音频特征在语音特征空间上的类属性分布以及音频样本的标识子间转移概率。进行了一系列的算法性能实验,探究窗长、特征空间标识子的个数、标记数据量、相似度计算方法这些参数对算法性能的影响。2.实现了一种基于w-vector的关键词检测方法。将说话人识别中的i-vector方法应用在语音关键词检测中,为每个关键词构建代表关键词身份的矢量特征,本文称之为w-vector。通过计算每个关键词的高斯超矢量并利用因子分析对高斯超矢量降维得到每个关键词的w-vector,在检测时通过计算音频段与每个关键词的w-vector的PLDA(Probabilistic Linear Discriminant Analysis,PLDA)评分得到检测结果。3.实现了一种基于互补模型评分融合的关键词检测方法。提出关键词候选点的概念,主要依据是两种算法所得评分曲线的极大值位置。对关键词候选点所在位置的评分进行加权融合,作为关键词检测的判决依据。对10个关键词进行检测,得到错误拒绝率和错误接受率分别是0.195和0.197。将基于互补模型评分融合的方法与仅基于音频经验轨迹的方法或仅基于w-vector的方法进行比较,验证互补模型评分融合方法的有效性,并与现有算法进行了性能对比,验证了在低数据资源场景下,基于互补模型评分融合的关键词检测方法实现的效果比基于隐马尔可夫模型的方法和基于神经网络的方法好。

其他文献

前馈神经网络的正则稀疏化与再学习

前馈神经网络（Feedforward neural networks,FNNs）是在现代神经科学研究成果的基础上提出的,以模拟生物神经网络在受到外界刺激后作出的交互反应机制为基本原理。建模由数据集

学位

前馈神经网络光滑组L1/2正则化稀疏光滑组L1/2正则化自适应学习率再学习

基于多尺度特征金字塔融合的文本检测方法研究

文本作为自然场景图像中一种常见的媒介,本身包含着丰富的语义信息,对图像中的文本进行准确检测则是提取文本信息的第一步。随着深度学习技术的发展,基于目标检测的文本检测

学位

自然场景文本检测特征金字塔多尺度检测网络文本区域生成算法

基于时空卷积神经网络的视频人体行为识别

互联网的发展使视频数据呈爆炸式增长,有效地处理和分析海量视频数据成为一项重要的任务。充分利用视频数据,可应用于视频安全监控、视频检索与分类、人机交互和无人驾驶等方

学位

视频行为识别深度学习卷积神经网络ResNetR(2+1)D

舰船艉部振动控制方法研究

随着舰船的现代化设计不断向着轻量化、大型化以及快速化方向发展,船体产生的振动问题也是越来越严重。尤其对于船体艉部部分,由于船舶的螺旋桨和动力设备通常会布置在船艉,

学位

船体艉部振动振动特性及响应动力吸振器磁流变减振立柱

无线传感网中面向低时延的移动Sink数据收集技术研究

无线传感器网络是一种分布式网络,它由大量的传感器节点组成,多个传感器节点之间通过无线通信的方式形成通信网络。近年来,无线传感器网络凭借其无中心、自组织组网、快速部

学位

无线传感器网络移动Sink低时延数据收集

三角褐指藻遗传转化及高产油转化株的研究

三角褐指藻是一种具有重要经济价值和生态学意义的多形态单细胞硅藻。该藻生长在海洋或盐湖中,可以合成和累积岩藻黄质,金藻昆布糖,多不饱和脂肪酸等高价值化合物。此外,由于

学位

三角褐指藻无菌培养遗传转化脂质基因表达调控

基于生成对抗网络的冷冻电镜图像去噪研究

冷冻电镜(Cryogenic electron microscopy,Cryo-em)是一种能够实现生物大分子三维重构的技术,它通过冷冻电镜图像和三维重构软件获得高分辨率的生物大分子结构。由于冷冻电镜

学位

冷冻电镜图像生成对抗网络深度学习图像去噪

社会关系对农户多维资产贫困的影响研究

2013年党中央首次提出“精准扶贫”这一概念,即在对象、因村派人、项目安排、脱贫成效、资金使用、措施到位这六个方面都要做到精准。要真正理解“精准扶贫”工作,就先要抓住

学位

社会关系非正规金融多维资产贫困中介效应

中国地方政府债务竞争：基于省市两级空间面板数据的实证研究

围绕地方政府举债规模扩张迅速的问题,以往文献多研究财政分权对政府债务规模的影响机理,本文认为传统的财政分权理论不能完全解释债务规模迅速膨胀的动因,故以地方政府间债

学位

债务规模扩张地方政府债务竞争一般债务专项债务空间计量模型

乳腺癌标记物的太赫兹生物传感研究

对癌症进行早期诊断,并及时治疗对于癌症患者来说非常重要。以乳腺癌为例,现行的诊断方式,如乳腺钼靶X射线摄影检查、超声检测、X射线计算机断层扫描等技术,虽具有一定的成效

学位

太赫兹超材料生物传感器癌症标记物生物修饰

基于互补模型评分融合的语音关键词检测方法研究

其他学术论文