论文部分内容阅读
说话人识别技术经历了数十年的发展,已经取得了巨大的进步,然而与人类的听觉能力相比还处于初级阶段,与其广阔的应用需求显得力所不及,目前有实力的发展国家都纷纷展开说话人识别技术的研究,我国的863计划也包括该项技术,应该说说话人识别技术已经成为21世纪信息领域中最有发展潜力的技术之一。 论文研究内容集中在说话人识别的策略方面。通过考察分析现有的各种说话人识别技术,认为就目前情况来说,要么是改进现有成熟的主流识别技术进一步提高识别率,要么将现有成熟的主流技术与比较前沿的技术相结合从而找到一种实用的说话人识别技术。基于以上认识,本文将研究重点放在人工神经网络与说话人识别主流技术隐马尔可夫模型(HMM)相结合上以及对HMM的前端处理矢量量化的改善上。提出将VQ说话人识别技术与HMM说话人识别技术相结合,引入自组织特征映射神经网络(SOFM)代替普通VQ识别中的LBG算法进行码书设计、矢量量化的说话人识别策略,并采用了自适应技术,同时建立一个小规模的说话人识别系统以验证所提出的说话人识别策略。 通过理论分析与实验可知,采用SOFM算法代替普通LBG算法可以实现码书训练的全局最优及其训练时间的可控性,采用并行算法可提高计算速度;采用本文所提出的说话人识别策略,与单HMM识别方式相比可以减少前端量化误差,提高HMM的识别精度,由VQ识别结果与HMM识别结果共同决定最终识别结果,提高了系统的可靠性。自适应处理技术的采用使得系统参数可以根据由于如年龄等因素引起说话人声音的变化而作相应的调整。