论文部分内容阅读
语音识别技术给智能时代的人们带来了极大便利,大大提升了人机交互的效率。尤其是在如今的移动互联网时代,智能移动终端等智能设备已经大范围普及,对于语音识别技术的研究需求比以前更大。在汉语语音识别方面,普通话及各大方言语系的语音识别已经相当成熟,然而在现实生活的使用场景上,即使是同一语系的方言也会有大的差别,这会影响到语音识别的识别率及系统的鲁棒性。在各类复杂环境及发音者自身因素的影响下如何提高系统对方言语音的自适应性仍然是个难题。而现在对于一些方言的语音识别研究还没有深入到如此小的语系分支。基于以上几点原因,以及笔者家乡在河南省洛阳市孟津县,对孟津方言十分熟悉,较易获取大量语音资料,因此选定此题目作为本文的研究课题。本文主要对语音信号的预处理、特征参数提取等进行了研究,并构建了基于HTK的孟津方言语音识别系统,主要内容如下:(1)阐述了本文的选题背景及意义,介绍了语音识别技术的发展和现状(2)概述了语音识别系统,介绍了语音识别系统的相关技术及其原理,从语料库的建立到语音信号的预处理以及特征参数提取的原理。(3)介绍了语音识别的模型,重点阐述了隐马尔可夫模型的思想及定义,给出了隐马尔可夫模型的三个基本问题的解决方案。(4)简介了 HTK工具包及其工作原理,给出了 HTK工具包在Windows 7环境下的编译过程。(5)介绍了基于HTK搭建语音识别系统的过程,给出了一个实例验证了此系统的可靠性,研究了孟津方言的语音特点,找了 10名年龄、性别、文化程度各不相同的当地人员录制了 200条训练语音数据和20条测试语音数据,搭建了基于HTK的孟津方言语音识别系统,进行了实验仿真。在实验室录音环境下39维MFCC特征参数提取条件下得出的词识别率为80.95%,13维MFCC特征参数提取条件下得出的词识别率为77.78%,然后又做了一个在微信语音录音环境下的对比实验,在39维特征参数提取条件下的词识别率为79.37%,13维MFCC特征参数提取条件下得出的词识别率为68.25%。