基于深度学习的语音关键词检测研究

来源 :上海交通大学 | 被引量 : 1次 | 上传用户:gem364258013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从2006年Hinton等人提出深度学习方法以来,深度学习一直都是广大科研工作者的研究热点,并且得到了工业界的广泛应用。深度学习方法通过对外部信息的学习,从而对未知结果做出合理的预测,深度学习方法具有强大的非线性映射能力、自学习能力以及容错能力。语音是深度学习非常适用的领域之一,语音关键词检测则是语音领域中的一个重要课题。语音关键词检测技术的目的是检测出连续语音信息中是否包含某些特定关键词,这项技术广泛应用于各种场景,比如数据检索、数据挖掘、命令控制等等。在主流的语音关键词检测系统中,基于GMM-HMM的Keyword-Filler模型是解决可定制关键词检测问题的有效方法,再使用DNN替代GMM作为HMM中用于计算发射概率的模型后,关键词检测的错误率可以进一步相对减少超过20%。尽管深度学习方法可以取得如此显著的性能改进,但是经典的利用深度神经网络的关键词检测方法仍然存在很多缺陷,例如对长时间依赖建模能力差、难以区分相近关键词等问题。本文主要研究深度学习在关键词检测中的应用,并且试图解决经典方法的不足之处。对于问题本身,本文主要从两个方面进行改进:预处理与检测算法。在预处理过程中,语音活动端点检测十分重要,直接决定了检测算法需要处理的语音信号的质量。本文中采取了多任务的深度神经网络模型,并且结合多帧预测技术,以增强端点检测的准确性。模型训练时,端点检测作为主任务,语音增强作为辅助任务,并且同时对当前语音帧与前后多帧做预测,最终的预测结果由融合函数计算得出。在英文测试集上,多帧预测模型与经典深度神经网络模型基线相比有17.9%的相对准确度提升,同时碎片化问题降低了4.1%。在检测算法方面,本文将LSTM-CTC模型引入关键词检测系统,LSTM-CTC是一种有效地对长时间依赖建模的方法。并且利用LSTM-CTC模型输出后验概率稀疏的特性,针对性地提出了一种音素搜索算法。在提出的方法中,首先每帧的后验概率由LSTM-CTC声学模型计算得到,然后生成相应的CTC Lattice,并在此CTC Lattice上执行本文设计的基于编辑距离的音素匹配算法,计算出测试音频的关键词得分,通过与动态阈值的比较完成判别过程。本文设计了多组实验考察提出的关键词检测系统性能,在英文测试集上达到了相对29%的EER减少与12%的FOM提升,并且在相似关键词的检测上也优于经典方法。
其他文献
印度-欧亚板块不断的汇聚、碰撞,推动了青藏高原及其邻近区域的构造变形和持续隆升。形成了青藏高原内部平坦,边缘陡峻且发育大量深切峡谷的地貌特征。青藏高原东缘,龙门山逆冲带与相邻的四川盆地存在超过4 km的地形差。目前的研究表明,这种短水平距离上的巨大地形高差的形成,可能是区域上地壳逆冲,脆性缩短,使地壳增厚造成的。然而,无论是新生代地层记录,还是现今GPS速度场,证实青藏高原东缘水平缩短速率很低,不
随着电子工业的快速发展,电路故障诊断在可靠运行以及良好的工业系统维护中起着非常重要的作用,这可以确保生产更高质量的产品,降低产品报废率并满足日益严格的安全和环境要求。目前,虽然对于数字电路来说,广泛使用的是完全自动化的故障诊断技术,但是对于模拟电路来说,由于故障模型复杂,元件容差和非线性问题,使得故障很难检测和诊断,这造成了电路芯片高成本和集成电路发展的技术瓶颈。因此,在模拟电路中,有效的诊断技术
随着机器学习和大数据等技术的不断发展,基于身份认证的人脸识别系统由于无需记忆等优点应用得越来越广泛,但是当它面对基于媒介的人脸伪造攻击时会表现出固有的缺陷。在这种情况下,攻击者会展示包含用户人脸的照片或者视频来欺骗人脸识别系统。在当下时代的社交网络中,每天都有大量包含人脸的私人照片和视频上传,攻击者可以轻而易举地获取这些照片和视频,从而对人脸识别系统进行攻击。活性检测模块是人脸识别系统中重要的组成
随着人们生活水平的提高以及汽车工业的快速发展,越来越多的家庭拥有了私家车。伴随着汽车消费的不断攀升,消费者对汽车养护的认知也发生了明显改变,“三分靠修,七分靠养”的以养代修理念逐渐形成,给广大汽车护理厂商带来了商机。消费者对汽车服务业专业化、标准化有了更高的要求,而传统的汽车服务市场参与者,包括4S店、路边店、汽配城等都难以满足消费者日益提升的消费需求。因此,汽车服务行业企业需要通过提供流程化、透
当今社会,我国的税收事业在经济新常态的背景下持续快速发展,在服务经济发展方面发挥着重要作用。与此同时,随着征管体制改革的不断推进和全面落实,税收工作面临的形势越来越严峻,对税务干部的地位、职责、思想和观念等方面的要求发生了深刻的变化,迫切需要我们建立一支公正廉明、富有理想、朝气蓬勃、道德高尚、纪律严明、任劳任怨、业务熟练、执法文明的税务干部队伍,以担负起为国聚财、为民收税、调节经济结构的重任,强化
截止2014年12月31日,沪深300股指期货正式上线已经将近5年。虽然近年来我国股市行情表现一般,但是股指期货的成交规模却日益上升。作为对股票现货市场进行风险管理的金融衍生
党的十九届四中全会明确指出,要巩固和完善科技创新体制,建立以企业为主体、市场为导向、产学研深度融合的技术创新体系,支持大中小企业和各类主体融通创新,促进科技成果转化机制,积极发展新动能,强化标准引领,提升产业基础能力和产业链现代化水平。为我国新时代科技创新,特别是产学研协同创新指明了方向。为此,中国的自主创新需要更多的制度创新,产学研协同创新就是其中重要的战略选择。产学研协同创新作为国家创新体系建
随着机器人技术的诞生和发展,机器人的应用已不再局限于工厂中的加工生产,而是向服务、医疗、家庭等领域逐步渗透拓展。而在这些场合,大多数需要机器人与人共享空间,协作机器人即应运而生。这些场合的应用,需要对其进行轻量化设计以实现降低人机冲突时的碰撞冲击性和提高作业稳定性,实现人机协作中的高安全性和良好控制能力。基于此,本文设计并实现了一轻量化协作机器人,且针对结构的轻量化需求,提出了一种基于联合有限元建
与非型(NAND)闪存作为一种非易失性存储,由于具有大容量及低成本的优势,从而获得广泛的研究与应用。随着工艺技术的发展,NAND闪存的存储密度在进一步增加,但同时也增大了数据出错的概率,因此改善多级存储单元类型NAND闪存的数据存储性能显得尤为重要。极化(Polar)码是近年来提出的理论上可达信道容量极限的一类码字,因此将Polar码应用于NAND闪存具有广阔的前景。本文重点研究了多级存储单元类型
氨氯地平是一种强效的第三代二氢吡啶钙通道拮抗剂,被世界卫生组织临床抗高血压治疗推荐为一线抗高血压药物,具有作用温和、降压平稳、长效安全等优点。然而,在大鼠主动脉的体外评估实验中,S-氨氯地平的药效是R-氨氯地平的2000倍。在使用过程中两种对映体及其盐表现出不同的药理特性,且R-氨氯地平使得周围血管释放一氧化氮,从而导致周围血肿。因此为用药安全有效,获得单一 S-氨氯地平对映体具有重要意义。手性离