基于QbE的语音关键词检测技术研究及系统实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ydaf9ta7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音数据量呈现爆炸式增长,但是由于转录成本高,其利用率较低。因此如何快速、准确、低成本的获得用户感兴趣的部分是提高语音数据后续利用率的关键。基于Qb E(Query-by-Example)的语音关键词检测以其无需先验知识、使用灵活的优势再次受到越来越多的关注,并对于低资源语种具有巨大优势。本文针对基于Qb E的语音关键词检测中的检索效率、检测准确性、匹配算法的合理性以及多样例的应用方式开展了一系列研究,并主要在普通话测试集上探索方法的有效性,再应用到客家话和英文,以探索算法的鲁棒性。最后实现了基于Qb E的语音关键词检测系统。本文的主要工作包括:1.提出了一种基于样例骨架结构信息的语音关键词候选对象筛选方法。根据样例清浊音骨架结构利用模糊搜索策略筛选出检索音频中相似结构的区域作为后续匹配的候选对象。针对普通话测试集(2162个音频文件,总时长为2.78h)检索150个样例,在与分段动态时间规整(Segmental Dynamic Time Warping,S-DTW)具有相近检测AUC(Area under Curve)下,该筛选方法使得平均检测实时率仅为S-DTW的30%。2.提出了一种利用清浊音信息改进动态时间规整(Dynamic Time Warping,DTW)算法的方法。对DTW增加语音帧类型(清浊音)及浊音段中的时序位置约束,该约束通过舍弃极不合理的失配区域以及增大局部距离实现匹配对的合理选择,引导DTW搜索路径更具有物理意义。3.提出了一种基于基频变化趋势的浊音段相似度计算方法,采用“四点三段”估计梯度法进行浊音段基频变化趋势的提取,并计算样例和候选对象整体基频变化趋势的相似度得分,并与DTW距离得分进行融合,补充评分的声调信息。最终在普通话测试集上相对单一DTW距离得分评价的方法,AUC提升2.7%,P@10提升3%,MAP提升5.2%。4.基于样例清浊音骨架结构筛选候选对象,并配合改进的DTW算法、融合浊音段相似度得分改进了关键词检测算法。根据实验结果,其相对基线S-DTW,在普通话测试集上AUC提升7.9%,MAP提升12.4%;在自制客家话测试集上,AUC提升4.3%,MAP提升10%;在TIMIT测试集上,AUC提升4.4%,MAP提升5.1%;同时检索平均实时率都约为基线方法的38%。5.改进了一种多样例的融合方法,主要根据样本分布中心的思想选取目标模板,并根据目标模板与剩余样例的DTW距离将差距大的样例剔除,保留下来的样例再向目标模板对齐。最终在普通话测试集上的检测AUC为0.88。6.实现了一个基于Qb E的语音关键词检测系统,支持用户选取预存的样例或录制样例对选定的音频数据库进行相关文件的搜索,最终搜索结果按照相关度从高到低的形式反馈给用户,用户可以对文件进行播放、转存。
其他文献
大中型体育场馆的定位是体育场馆设计前期策划中的核心工作之一,场馆定位的准确性将对后续场馆的设计建造以及运营使用的效果带来持续影响。而随着我国交通基础设施的不断建设与体育产业的不断发展,交通区位与交通基础设施条件将在体育场馆的运营使用中扮演着越来越重要的角色。在交通网络多样化复杂化的发展背景下,更精准认知把握交通设计条件是进行场馆规划选址、新场馆建设策划、场馆交通优化设计等方面工作的重要基础。因此本
近年来,随着智能机器人的发展,机器人的工作方式从单个机器人逐渐转为群体机器人协作完成任务的方式。因此开展移动机器人群体选择、交互和感知推理等技术的研究具有重要作用。本文的主要研究内容包括以下三个方面:(1)三维手势识别与交互技术:采用Leap Motion作为手势传感器捕捉控制者手部信息,作为人-群体机器人人机交互输入数据;基于支持向量机(Support Vector Machine,SVM)对静
相比其他类型的公共建筑,公众对博物馆空间有着更高的审美要求,在当代博物馆空间中,服务对象从展品转向观众,观众的视觉体验与心理感知越来越受到重视,博物馆空间也越来越开放与自由,呈现多义性发展的趋势。随着博物馆空间多义发展,公共楼梯不再是简单的交通构件,作为集艺术与技术于一体的建筑元素,公共楼梯成为表现博物馆空间效果的重点设计要素。本文以空间多义性为研究背景,重点对博物馆公共楼梯在空间多义性影响下的设
随着人类社会的快速发展,电动汽车及各种便携式电子设备的迅速普及,人们对二次电池的需求也愈发强烈。锂离子电池具备体积小、输出电压高、无记忆效应、能量和功率密度高等优点,因而其成为了主流的二次电池。目前的商业石墨负极由于其低的理论容量(372 m Ah g-1)已逐渐不能满足实际的发展需求,因此,发展高容量且低成本的新型负极材料变得尤为重要。以转换反应为主的镍基过渡金属负极材料由于其较为可观的理论容量
随着大城市土地利用由增量扩张转向存量挖掘,传统土地储备制度难以应对大规模城市存量土地再开发需求,储备对象的转变引发了储备方式的转变;因此,面向存量土地再开发的土地整备被提出了,其结合了土地储备与土地整理两方面特点,即通过土地归并、收购、置换、入股等方式进行权属调整及分割,并对调整后的土地以规划为依据实施整体征地拆迁、土地清理及前期开发完成土地储备的全过程。本研究以广州市“片区全面改造与国资企业统一
深度学习技术近年来得到了飞速的发展,被广泛的应用到生活的方方面面。然而,当可供模型训练样本很少时甚至只有几个时,模型的性能往往表现很差,不能满足人们的需要。为了解决这种困境,人们提出了小样本学习方法。小样本方法大都可以分成两阶段的训练过程,即在基类数据集进行预训练的过程,和在新类数据集上评估小样本分类任务的过程。本文将这两个阶段的学习特点综合在一起展开研究,分别提出了改进措施,其主要贡献如下:(1
近几年来,随着我国汽车行业的快速发展,带来的交通问题越来越严重,安全出行成为人们日常关注的主要社会问题之一。人工智能技术和传统车辆的结合使得自动驾驶技术成为可能,目前车辆的高级驾驶辅助系统成为研究的主要热点。车道线检测有助于引导车辆安全驾驶,并且可以应用于高级驾驶辅助系统。在实际交通场景中,由于道路环境的复杂性、天气变化无常、昏暗或者炫目的光线、车道线模糊不清等原因,给车道线检测带来一定的挑战性。
在脑机接口(Brain-computer Interface,BCI)控制系统中,脑电(Electroencephalogram,EEG)信号由于其稳定、安全和易采集的特点,成为BCI应用研究中的热点。混合脑机接口(Hybrid Brain-computer Interface,h BCI)则是将EEG与其他生理信号相结合进行混合控制的交互技术。混合信号包括眼电(Electrooculograph
基塘农业是岭南人民根据珠三角地区地势低洼,将水利堤围与挖塘养鱼、堤上树果树桑结合起来的一种生态农业,是我国重要的农业文化遗产。海珠湿地的果基农业已有千年历史,在湿地发展进程中面临着果基农业保护和传承的一大难题。自然教育中的农耕教育是带领儿童和青少年进行农作物的认知、种养、采摘、收获以及学习家畜养殖等传承中华农耕文化的教育活动,重新连结着人与土地、自然的关系。如何将自然教育的内涵与基塘农业的生产生活
进入二十一世纪以来,随着我国现代化教育战略的实施和教育理念及模式的转变,以培养学生综合素质和终生学习的技能纳入教育目标体系,传统应试教育为范式的均质化小学校园空间也迎来了新的变革。小学校园作为儿童心智的启蒙场所,其育人的空间属性和场所特征逐渐凸显,与小学校园空间环境相关的研究提上日程。在此背景下,面对新时代创新型、个性化人才的培养目标,如何将传统校园空间中的被动式学习方式转向主动式学习,引导儿童主