资源稀少情况下的语音识别的主动学习方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lyx_suda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大语种语音识别技术的发展成熟,资源稀少情况下(Low-resource Conditions)的语音识别逐渐成为重要的研究热点。本文针对资源稀少情况下语音识别(小语种识别)建模及优化问题,采用基于主动学习的方法对该领域的一些技术问题展开研究,集中体现在以下两个方面:首先针对声学模型训练数据缺乏导致模型参数估计不准的情况,采用困惑度准则挑选无标注的语音数据参与训练,并进一步在训练过程中采用配套优化方法,使模型估计的参数更加准确;其次,在词典扩充及语言模型增强方面,采用字嵌入(word embedding)算法挑选网络文本数据,用来扩充词典和增加语言模型训练语料,进一步提升识别系统性能。首先,搭建了资源稀少情况下的语音识别系统,采用深度神经网络进行声学建模;针对资源稀少情况下语音识别中专家语言学知识缺乏的困境,采用数据驱动的方式生成问题集进行状态绑定,以获取声学建模中所需的最佳建模状态数(三音子,triphone);针对训练语料不足的现象,通过深度神经网络具有的隐层共享特性,采用大语种训练得到的网络参数初始化目标语种神经网络模型参数。其次,在语音识别的声学建模过程中,需要较多有标注的数据来估计模型参数,对于资源稀少的语种(小语种),有标注的语料数据较少;另一方面,随着数据获取技术的成熟,可以获取大量廉价的无标注语音数据。在节约人工标注成本的前提下,本文采用困惑度准则对大量无标注数据进行有效选择,将筛选得到的无标注数据与原有标注数据一起参与声学模型训练;进一步在模型参数训练过程中,最后一次参数更新只采用有标注数据进行参数调优,明显改善语音识别系统性能。最后,对于资源稀少情况下的语音识别任务,往往会因为词典覆盖率很差而伴随出现大量的集外词,而且用于生成语言模型的文本语料相对较少,因此难以获取涵盖率较好的词典和区分性很强的语音模型,这两个方面都影响着语音识别性能的提升。随着互联网技术的高度发展,很容易从网上获取小语种的大量文本语料数据(web data),关键是如何筛选匹配的数据,本文采用基于word embedding的计算方法从web data中挑选词汇或句子,着手解决词典扩充和语言模型增强的问题,最终达到提升资源稀少情况下语音识别性能的目的。使用上述的改进方法,本文在NIST OpenKWS2015的Swahili语和NIST OpenKWS2016的Georgian语两个数据库上进行了相关实验验证,获得了明显的识别性能提升。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
三峡水库试验性蓄水后,长江干支流水利枢纽陆续投入运行,入库沙量大幅减少,导致库区航道条件变化与论证阶段成果有一定差异。基于2008年以来库区航道原型观测资料,分析常年回
随着社会生产力的提高,科技的迅速发展,武器也在不断创新改变。人类社会经历了冷兵器时代和热兵器时代。狭义上冷兵器是指不带有火药、炸药或其他燃烧物,在战斗中直接杀伤敌
本文根据JJF 1135-2005、JJF1059.1-2012等规范要求,对运用微波消解-石墨炉原子吸收光谱法法测定大虾质控样中的铬含量的过程进行了不确定度评定,为实验室测量结果质量的有效
白电行业作为家电制造业的重要一员,近几年的发展道路跌宕起伏。随着家电下乡、以旧换新等国家政策的取消,自2012年开始,白电行业进入低迷期,销量大幅下降、库存堆积。而从20
介绍了膏体充填采矿法在国内外的发展现状及技术上可行,经济上合理,安全上可靠和具有可持续发展的优点,概述了膏体充填的特点和各种充填法的比较。
电子商务近几年在我国的发展犹如雨后春笋,带动了很多行业的新兴和发展,物流对于电子商务的作用愈加明显,可以说电子商务的发展给现代物流业带来很大的影响,而传统物流业流程中存