基于深度学习的藏语安多方言语音识别的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:ahphone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人类发展的历史长河中,语音作为人类交流必不可少的一部分,一直是国内外学者研究的重点课题。如何让计算机与人类通过“语言”交流更是热门的研究对象。随着Siri等许多语音识别软件的出现和智能家居的兴起,智能语音处理的应用逐渐走进人们的生活,并持续地扮演重要角色。在这个大数据的时代,拥有着对数据建模超能力的深度学习算法,已经被普及于语音识别、图像处理等模式识别领域。目前,语音识别技术针对英语、日语、德语、中文等主流国际语言识别正确率高达99%以上。但是针对像藏语这样的民族方言研究仍处在很浅显的阶段。因此,本文主要研究提高深度学习在藏语安多方言连续语音识别上的效果。本文主要工作如下:1.建立了一个用于藏语安多方言语音识别的大规模语音语料库。我们选取了10000个藏语常用句子来构建藏语安多方言语料库。我们筛选了以藏语安多方言为母语的5位男性说话人和5位女性说话人,每人录制1000句语音,一共录制的语料库时长为15.6小时。再根据发音词典对文本语料进行标注,并将语料按照3:1的比例分别组成训练集和测试集。2.实现了基于深度神经网络(Deep Neural Networks,DNN)和隐马尔科夫模型(Hidden Markov Model,HMM)的藏语安多方言语音识别。我们首先对原始语音进行预处理、提取特征等操作,接下来利用相应的文本训练语言模型。然后利用训练集的语料进行大量训练,生成声学模型。最后将测试集语料输入模型,通过解码识别出词序列,字错率为28.3%。3.实现了基于混合端到端藏语安多方言语音识别。本文分别搭建了基于连接时态分类(connectionist temporal classification,CTC)和基于Attention架构的端到端藏语安多方言语音识别模型,并提出了一种基于混合CTC/Attention的方法来优化藏语安多方言语音识别的方法。通过调整系统的CTC所占权重参数来提高系统精确度,优化模型。当参数取0.2时,混合端到端模型的字错率最低,为31.5%。
其他文献
活性炭具有良好的吸附和催化性能,在污水处理、烟气净化等环保领域应用甚广,通过一般的炭化、活化方法生产出的活性炭均为粉状活性炭,使用、运输极为不便,容易造成粉尘污染,对其应
据统计,我院2000-2003年,因农药中毒(包括有机磷农药中毒、有机氯农药中毒、有机氮农药中毒等)而进行救治的患者有122例,其中有机磷农药中毒的患者有88例,经过催吐和洗胃、应
天津北方网讯:记者从市消费者协会获悉,涉及健身、美容美发、洗车等行业的预付式消费投诉一直以来居高不下。中消协今天上午发布预付式消费调查体验结果,所调查的所有商家均存在
目的研究麝黄消瘤汤对人肝癌细胞系(Bel-7402)的抑制增殖作用.方法制备含药血清,孵化人肝癌细胞系(Bel-7402),用MTT比色法、倒置相差显微镜观察法及PCNA(增殖细胞核抗原)免疫