基于不同发声习惯的数据增强在电话场景语音识别中的应用研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:qjinglihong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习技术的快速发展使得语音识别的准确率有了巨大的进步,在多个行业完成了落地,越来越多的语音技术产品进入了人们的生活。智能客服机器人渐渐进入客服岗位,帮助企业降低人工成本,提高工作效率。在语音识别、语义理解、语音合成等人工智能技术的支持下,智能客服机器人能够根据用户问的问题,给予满意的答案。在智能客服机器人常用的电话场景中,用户的发音习惯差异性比较大,这使得通用的语音识别系统无法取得很好地识别准确率。由于自动语音识别系统是由数据驱动的,因此其性能受训练数据的规模和领域覆盖的影响很大。训练数据少、发音习惯差异大等会严重影响识别率。解决这些问题的其中一个方法就是数据增强。本文以电话环境语音识别为切入点,研究了基于不同发声习惯的数据增强方法对语音识别模型在手机信道和电话信道下识别率的影响。主要工作如下:第一,详细介绍了传统语音识别系统的训练过程,包括特征提取、声学模型、语言模型、评价指标等,并使用Kaldi语音识别工具搭建了一个语音识别基线模型。介绍了语音识别模型训练中常用的基于速度扰动的数据增强方法并进行了实验。实验结果表明,基于速度扰动的数据增强方法能够提升模型在手机信道和电话信道下的识别效果。第二,针对基于速度扰动的数据增强方法的实现原理,将其拆分为变速不变调和变调不变速两种数据增强方法,并详细介绍了它们的实现原理。通过实验比较了两种数据增强方法对模型的效果,并提出变速和变调混合的数据增强方法。实验结果表明,变速和变调混合的数据增强方法在手机信道和电话信道下的效果都要优于速度扰动的数据增强方法。第三,针对数据增强训练可能存在的问题,提出将模型参数预训练和数据增强融合的训练方法。本文对多种预训练微调的方法进行了实验。实验结果表明,模型参数预训练和数据增强融合的方法比单纯数据增强获得了更好的效果。
其他文献
近年来照明产业迅速发展,发光二极管(Light emitting diode,LED)因其绿色、节能、结构设计灵活等优点,正逐步替代白炽灯和荧光灯成为主流的照明方式。作为LED照明灯具的重要组成部分,恒流驱动电源是制约灯具性能和寿命的瓶颈,同时要求其具有更简单的外围电路、更小的体积、更低的成本、更高的稳定性。在此,其核心是驱动芯片。根据当前LED驱动电源的发展现状,结合市场的要求,论文设计了一款无
列车牵引系统为变压变频逆变器控制的交流传动系统,是高速列车运行过程中传导电磁干扰的主要产生源。随着列车速度越来越快,牵引系统功率不断增大,列车各部分电气线路密集化、复杂化,对传导电磁干扰的分析精度要求越来越高,难度也越来越大。为保证列车安全平稳运行,有必要对系统传导电磁干扰进行仿真预测及分析。本文以某地铁线路的牵引系统为对象,搭建其传导电磁干扰(Electromagnetic Interferen
近年来,随着计算机视觉的不断发展,将视觉引入到机器人上料系统中,对上料物体进行识别定位,能够提高系统的自动化程度和机器人作业的灵活性。本文结合实际的项目开发需求,利用视觉引导机器人上料技术,解决汽车空调轮毂上料问题。针对汽车空调轮毂,论文研发了一套汽车空调轮毂手眼上料系统,系统采用单目视觉定位方法,将图像中的特征点的坐标通过手眼系统的标定参数转换为机器人基坐标系下的坐标,利用计算机实现机器人系统与
钛合金是当今航空航天零部件制造领域的高性能材料,其高强度、轻质量的特性对于航空器的减重具有重要的作用,但钛合金在常温下的塑性较差,在实际应用中面临着常温下难以机械加工的困难。而超塑成形/扩散连接(SPF/DB)技术突破传统的工艺方法,利用钛合金在低应变速率、合适的温度环境下,延展率高和变形阻力小的特点进行锻压成形。本论文以钛合金超塑成形/扩散连接工艺为切入点,结合关键工艺参数的控制要素,展开航空钛
教学内容:人教版小学四年级数学下册第四单元第40~42页内容。教学目标:1.结合具体情境,让学生经历小数大小比较及与他人交流的过程。2.体验小数比较大小策略的多样性,会比较简单小数的大小,培养学生数感。3.让学生在交流合作中体验学习数学的乐趣,激发学习数学的兴趣。教学重、难点:正确掌握小数大小比较的方法。正确运用小数大小比较的方法,熟练地比较小数的大小。
期刊
随着微型航天器应用领域的逐渐扩大,作为其姿态控制系统核心部件的动量执行器受到了越来越多的重视。相比于传统的动量轮和控制力矩陀螺,单个动量球可以输出三轴角动量从而实现卫星三自由度的姿态调节,这大大减小了航天器姿态控制系统的体积和质量。本文以一种用于微型卫星姿态调节的磁悬浮感应式动量球为研究对象,主要对其绕组优化设计及等效电路参数计算进行了研究。首先介绍了一种感应式磁悬浮动量球的拓扑结构设计,并对其基
随着国家加快生态文明体制改革,传统粗放模式的矿石行业迎来转型升级,交通基础设施的高速建设使宕渣、碎石等公路工程领域常见路基填料需求增多,供求矛盾日益突出。同时,城市迅速发展尤其是地铁建设带来的建筑弃土体量巨大,合理处置建筑弃土已成为城市亟待解决的突出问题。本次研究针对课题组已初步开发的新型HCL系列建筑弃土固化剂,开展了固化粉质土类的建筑弃土固化研究,主要完成以下工作:(1)通过室内试验,对粉质土
在油耗和排放法规要求日益严苛的背景下,发动机开发朝着小型化、增压直喷化、高热效率的方向发展。发动机的功率密度提升带来热负荷的增加,原有的用于自然吸气发动机的数值传热方法不再适用。迫切需要对原有的计算方法进行改进研究,提高计算精度,满足企业开发需求。本文基于某1.5TD(增压直喷)乘用车用汽油机,先采用试验研究手段对活塞及发动机本体采用硬度塞和热电偶进行测量,测试结果为后续的发动机传热数值模拟研究提
近年来,LED照明以其节能环保、寿命长久、体积小巧等特点得到了迅速的发展。LED驱动器作为核心器件,对LED照明产品的性能影响很大。随其研究的不断深入,LED驱动器的设计已经不单单追求效率等基本电气性能,同时还必须考虑更多健康化、智能化、个性化的应用需求,综合性能卓越的LED驱动器将更有竞争优势。线性恒流LED驱动器具有结构简单、控制方便的特点,在成本和体积方面更具优势,这其中又以单开关线性LED
情感计算是机器感知、理解与表达人类情感的重要方法,是高级人机交互的关键技术。随着人机交互的发展与进步,情绪状态识别受到广泛关注。情绪状态识别有助于人机交互的发展,也有助于对人类情感的理解。准确理解人类的情感状态能使机器带有情感属性,让“人工智能”更加拟人化。目前,机器的情绪识别在离开了人类的干预下,对于复杂的情感理解与表达仍然面临很大的困境。人类情感的产生是多模态的,其表达方式比较丰富,识别情绪的