高效简约的语音识别声学模型

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sunjiajun75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前连续密度HMM模型的语音识别系统性能良好,但其存储和计算需求过大。针对这一问题,本论文专注于语音识别系统的核心——声学模型。本文分别从训练方法、特征降维、模型参数压缩三个方面研究如何获得高效小巧的声学模型,在保证模型精度的前提下使用尽小可能的参数量,降低系统资源需求。基于已有的方法,我们提出及推广了一系列新方法,以实验证明了它们的有效性。这些方法主要集中在以下几个方面。 首先,本文研究了最小分类错误方法,实现了基于N-best解码的训练方法。实验证实,在保证模型精度的前提下,经MCE训练的模型可显著减小。我们并将其推广到子空间分布聚类HMM模型上,在很大程度上弥补了在将CDHMM转换成SDCHMM的过程中由于特征空间分裂和子空间分布聚类带来的性能降低。与直接由CDHMM转换而成的SDCHMM相比,性能提升15-80%。 其次,为了解决特征降维方法通常也降低识别性能的问题,我们提出了在区分性特征提取框架下按照最小分类错误准则调整模型参数和特征降维变换的方法,效果极为明显。更进一步,我们提出了以LDA变换执行的集去相关与降维于一体的新的特征提取方法,并将该方法同样纳入区分性特征提取框架之中。利用该方法,14维特征获得了与39维MFCC同样的性能,显著降低了计算和存储的需求。 再次,针对声学模型中各个状态对系统性能的贡献不同,提出了以贪心算法实现的基于似然度、Kullback-Leibler散度和状态间分散度的HMM模型各状态高斯分布数的确定方法。在总高斯分布数目给定前提下,分别最大化训练数据的似然度,最小化当前模型与“真正”模型之间的距离和最大化模型各状态间之分散度。其中基于状态间分散度的方法融入了状态间的竞争信息,具有区分性的特性。实验结果表明这几种方法相较基于贝叶斯信息准则的方法性能更佳。在相同模型精度的前提下,都可不同程度地减少参数。 最后,本文对声学模型特征级参数聚类进行了研究。在进行特征级参数聚类时我们提出采用具有信息熵意义的KLD作LBG聚类,聚类性能良好。而基于不同维的特征区分性信息多寡的不同,我们分别提出了各标量维高斯核的基于KLD和似然度的非均一分配法。在总高斯核数不变原则下,利用贪心算法在不同维之间进行高斯核的优化分配来最小化压缩模型与原始模型间的KLD和最大化训练数据的似然度。这两种非均一分配方法比均一分配性能更佳。而基于似然度的方法又优于基于KLD的方法。这些方法在保证模型性能基本不降的同时将模型参数压缩到原来的15%左右。此时加减需求为原来的50%左右,而乘除的需求则可大幅减少为1%以内。对于孤立词任务,相应的乘除运算更降到未压缩模型的0.05%左右。
其他文献
分别从气候环境、冬季管道施工技术措施、施工机具要求及其它防护措施等方面,介绍了哈萨克斯坦扎纳诺尔-KC13天然气管道工程的冬季施工经验。阐述了管道冬季施工作业中应注意
研究了三维枝晶生长相场模型中各向异性问题,采用数值计算模拟了各种程度的各向异性。在界币各向异性系数变化中,平衡晶体形貌从光滑过渡到出现角部之间有一临界值,三维的临界值
目的 了解中国不同地区城市中小学生营养状况及认知现状,为儿童肥胖防治提供科学依据。方法 于2017年3—6月份采用分层随机整群抽样方法,在7个“营养校园”试点区县抽取1 755
对人体来说,睡眠充足、睡眠质量良好是长寿的必要条件之一。而对女性来说,睡眠除了与健康密切相关,还对美容养颜起着关键作用。
以火的姿态  在岁月的深处舞蹈  青春的血液从炉膛里涌出  锤炼  锻轧成钢铁的脊梁  炉膛为腹  汗水是汁  种子举向太阳的唇边  入炉、加温、淬炼、去渣  殷切和凝重在目光里揉搓  一把被岁月磨得光亮的钢钎  举起一串串攀升的指标  血管里跳动的数字携着溫度  云海中蹁跹  一条、两条、几十条、几百条  汇聚成,为生命歌唱的急流  握紧的心思在阳光里拨亮  氤氲中有桂花飘香  掌心的老茧  剥
期刊
在中国汽车工业的发展历程中,民族品牌"红旗"汽车具有举足轻重的地位,作为国车、官车和高端豪华车的代表,"红旗"始终承载着民族精神,体现着时代记忆,传承着历史奇迹,见证了中
上一世纪九十年代中期制订IPv6协议以来,IPv6就被国际上普遍视为下一代Internet (Next Generation Internet, NGI)的代名词。由于它沿袭现有Internet的体系结构,无法从根本上