基于Transformer的语音识别研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:cg84989679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从人们可以生产和利用各种机器以来,就一直有个伟大的设想,那就是让各种机器能够“听”懂人类的语言,并且能够使机器按照人类的语言命令来行动,进而实现真正人机交互。近年来,随着大数据、神经网络和深度学习的不断发展,基于此原理的语音识别技术也越发成熟,这使得人们的这一设想看到了实现的可能。语音识别技术实质上就是让机器通过识别以及理解应用,把语音信息转换为对应的文本或者命令的技术,这种技术的好处是极大的提升了人们日常的工作效率。目前,语音识别主流的框架有二种:RNN(循环神经网络)和Transformer框架,应用于在ASR(自动语音识别),ST(语音翻译)和TTS(把文本转换成语音)等方面的工作。但是RNN语音识别模型存在着一些不足之处:1、在多个GPU下,RNN模型没有明显的性能提升;2、RNN模型的在多种语音环境下,字符精确度不高和识别速度不快的问题;3、RNN模型的L1损失严重偏大的问题(L1损失又称平均绝对误差,该误差过大会引发梯度爆炸);4、Transformer模型也有着欠拟合(模型拟合程度不高,数据距离拟合曲线较远)和Transformer解码滤波器效率过低的问题。针对以上问题,本文的研究工作如下:(1)针对在多个GPU下,RNN模型没有明显的性能提升的问题,本文引入了Tr ansformer语音识别模型,先设置了对照组:Transformer和RNN模型分别在1GPU、2GPU和4GPU下的字符验证准确率,最终得出结论:在多GPU下,Transformer性能优于RNN。(2)针对RNN模型的在多种语音环境下,字符精确度不高和识别速度不快的问题,本文设15个数据集,RNN模型采用Adadelta算法,Transformer模型采用默认配置,然后进行ASR实验运行一定周期后,由实验结果可知在13/15的语料库中,Transformer识别效果要好于RNN。(3)针对RNN模型的L1损失严重偏大的问题,本文设2种语料库,然后在单G PU下的TTS实验并记录L1损失率,实验结果表明Transformer在大的小批量数据集下能比RNN更好验证L1损失,GPU的数量也会影响Transformer的L1损失率。(4)针对Transformer存在着欠拟合和解码滤波器效率过低的问题,本文增加小批量数据集来防止其欠拟合,并且可使训练时间缩短;同时本文利用Fast Speech系统进行Transformer的TTS实验,极大提高了Transformer的解码滤波器效率,反而使其性能优于RNN。本文的创新点是为了节省实验成本,在无法实现多个GPU的实验环境时,利用策略梯度算法来加速数据收集和训练;为了得到更精确的实验结果,采用数据增强技术去优化实验结果;还有把折减系数引入Transformer模型,极大地减少了训练时间。
其他文献
中央苏区创建于1927年8月,并于1931年11月在江西瑞金正式成立了中央造币厂,至1934年10月,红军主动撤离中央根据地开始长征为止,苏维埃政权先后发行过货币,流通范围以赣南、闽
西部开发的根本目的,是使当地的人民富裕起来.西部开发的历史实践说明,仅仅依靠开发当地的自然资源,无法富裕西部的百姓.笔者认为,西部开发应充分发挥市场机制的作用,加大对
本文从阐述人格及人格教育的概念入手,在此基础上深入分析当前网络对大学生人格教育的积极影响和消极因素,最后提出了网络时代大学生人格教育的重要性和培养措施.