论文部分内容阅读
随着信息和互联网产业的快速发展,信息社会对智能化的水平提出更高的要求。语音识别技术是一种快捷、方便的信息交换方式,它以语音为研究对象,最终目的是实现人机能够自然顺畅的语音通信,从而为人类生活提供便利。与传统的语音识别方法相比,支持向量机具有更好的泛化性能和较高的识别效率,目前已广泛应用于模式识别领域。经过近几十年的发展,支持向量机理论得到很大的完善,在原始算法的基础上,提出了一些改进的算法。本文就支持向量机分类算法进行了研究,主要工作如下:(1)首先简要介绍了语音识别的基本原理和方法。在分析了传统语音识别方法存在的不足之处后,引入了当前流行的一种机器学习方法—支持向量机,其次重点阐述了支持向量机的统计学理论。支持向量机其本质可转换成二次规划问题来求解,在线性不可分时,通过非线性映射,将原始样本映射到高维核空间,选用适当的核函数,就可得到高维空间的分类函数,从而实现线性可分。(2)针对传统的一对一支持向量机算法在预测阶段存在的缺点,本文对该算法进行了改进。在分类识别阶段,将得票较低的类别先剔除掉,不用计算由这些类别构成的二分类器的决策函数值,提高算法的识别效率。最后在不同词汇量、不同信噪比的韩语语音库下进行了实验,达到缩短预测时间的目的。(3)支持向量机在小样本、信噪比较高的情况下有较高的识别效率,但是在大规模样本、噪声环境下的结果就不尽人意。为了解决这些问题,本文采用K最近邻算法先对训练样本进行删减,样本删减原则是删除训练样本中的噪声点和离群点,使分类超平面尽可能简单,进而提高训练速度。删减完成之后再用支持向量机进行后续的训练和识别工作。实验结果表明,经过删减之后,训练样本集和支持向量的数目都大大减少,支持向量机的训练速度明显加快,同时还保持了较高的识别率。